1、爬蟲:從互聯網爬取原(yuan)始網頁數(shu)據(ju),存(cun)儲于文檔(dang)知識庫服務(wu)器(qi)。
2、文檔知(zhi)識庫服(fu)務器:存儲原(yuan)始網(wang)頁數據(ju),通常是分布式Key-Value數據(ju)庫,能根據(ju)URL/UID快速獲取網(wang)頁內容(rong)。
3、索引(yin):讀(du)取原始網頁數據,解析網頁,抽取有效字(zi)段,生成索引(yin)數據。索引(yin)數據的(de)生成方式通(tong)常是增量的(de),分(fen)塊/分(fen)片(pian)的(de),并(bing)會進行索引(yin)合(he)并(bing)、優化和刪除(chu)。生成的(de)索引(yin)數據通(tong)常包括:字(zi)典(dian)數據、倒排表、正排表、文(wen)檔屬性等。生成的(de)索引(yin)存儲(chu)于索引(yin)服(fu)務(wu)器。
4、索引(yin)服務(wu)器:存(cun)儲索引(yin)數據(ju),主要是(shi)(shi)倒排表,通(tong)常是(shi)(shi)分(fen)(fen)塊、分(fen)(fen)片存(cun)儲,并支持增量更新和(he)刪除。數據(ju)內容量非常大時(shi),還根據(ju)類別、主題、時(shi)間、網頁(ye)質(zhi)量劃分(fen)(fen)數據(ju)分(fen)(fen)區(qu)和(he)分(fen)(fen)布,更好地服務(wu)在線查詢。
5、檢索:讀取倒排表索引,響應前端查詢請求(qiu),返回相關文檔(dang)列表數(shu)據。
6、排序(xu):對檢索器返(fan)回的(de)文(wen)檔列表進行排序(xu),基于文(wen)檔和(he)查詢(xun)的(de)相(xiang)關(guan)性、文(wen)檔的(de)鏈接權重等屬(shu)性。
7、鏈(lian)接(jie)分析:收集各網頁(ye)的鏈(lian)接(jie)數據和(he)錨文本(Anchor Text),以此計算各網頁(ye)鏈(lian)接(jie)評分,最(zui)終(zhong)會作為網頁(ye)屬性參與返回(hui)結果排(pai)序(xu)。
8、網頁去重(zhong):提取(qu)各(ge)網頁的(de)相關特征屬性,計(ji)算相似網頁組,提供(gong)離(li)線索引和在線查詢的(de)去重(zhong)服務。
9、網(wang)(wang)頁反垃(la)圾:收集各(ge)網(wang)(wang)頁和網(wang)(wang)站歷史信息(xi),提取垃(la)圾網(wang)(wang)頁特征(zheng),從而對在線(xian)索引中的網(wang)(wang)頁進(jin)行判(pan)定,去除垃(la)圾網(wang)(wang)頁。
10、查詢(xun)分(fen)析(xi):分(fen)析(xi)用戶查詢(xun),生成(cheng)結(jie)構化查詢(xun)請求,指派(pai)到相應的類別、主(zhu)題數據服(fu)務器進行查詢(xun)。
11、頁面描(miao)(miao)述/摘(zhai)要:為檢(jian)索和排序(xu)完成的網頁列表(biao)提供相應(ying)的描(miao)(miao)述和摘(zhai)要。
12、前端:接(jie)受(shou)用戶(hu)請求,分發至(zhi)相應(ying)服(fu)務器(qi),返回查(cha)詢結果(guo)。