1、爬蟲:從互(hu)聯網爬取原始網頁數據,存儲于文(wen)檔(dang)知識庫服務器。
2、文檔知識庫服務器:存儲原始網頁(ye)數據,通常是分布(bu)式Key-Value數據庫,能(neng)根據URL/UID快速獲取網頁(ye)內(nei)容。
3、索(suo)引:讀取(qu)原始網頁數據,解析網頁,抽(chou)取(qu)有效字段,生(sheng)成(cheng)(cheng)索(suo)引數據。索(suo)引數據的(de)生(sheng)成(cheng)(cheng)方(fang)式通常是(shi)增量的(de),分(fen)塊/分(fen)片的(de),并(bing)會進行索(suo)引合并(bing)、優化和刪除。生(sheng)成(cheng)(cheng)的(de)索(suo)引數據通常包括:字典(dian)數據、倒排表(biao)、正排表(biao)、文(wen)檔屬性等。生(sheng)成(cheng)(cheng)的(de)索(suo)引存儲(chu)于索(suo)引服務器(qi)。
4、索(suo)引(yin)(yin)服務(wu)器:存(cun)儲索(suo)引(yin)(yin)數(shu)據(ju),主要是倒排表,通常是分塊、分片存(cun)儲,并(bing)支持增量更新和刪除。數(shu)據(ju)內容量非常大時,還根據(ju)類別、主題、時間、網頁質量劃分數(shu)據(ju)分區和分布,更好地(di)服務(wu)在(zai)線查(cha)詢。
5、檢索(suo):讀取倒排(pai)表索(suo)引,響應(ying)前端(duan)查(cha)詢請求(qiu),返回相關(guan)文檔列表數據。
6、排(pai)序:對(dui)檢索器返回(hui)的文(wen)檔(dang)列表進行排(pai)序,基于文(wen)檔(dang)和查詢的相(xiang)關(guan)性、文(wen)檔(dang)的鏈(lian)接權重(zhong)等屬性。
7、鏈接分析:收(shou)集各網(wang)(wang)頁(ye)的鏈接數(shu)據(ju)和錨文本(Anchor Text),以此計算各網(wang)(wang)頁(ye)鏈接評(ping)分,最終會作(zuo)為網(wang)(wang)頁(ye)屬性參與返回結果排序。
8、網頁(ye)去(qu)(qu)重:提取各網頁(ye)的相關特征屬(shu)性,計算(suan)相似(si)網頁(ye)組,提供離線索(suo)引和(he)在線查詢的去(qu)(qu)重服務。
9、網(wang)頁反垃圾:收集各(ge)網(wang)頁和網(wang)站歷(li)史信息,提(ti)取垃圾網(wang)頁特征(zheng),從而對在線(xian)索引中的網(wang)頁進(jin)行(xing)判定(ding),去除垃圾網(wang)頁。
10、查(cha)(cha)詢(xun)分析(xi):分析(xi)用戶(hu)查(cha)(cha)詢(xun),生成結構化(hua)查(cha)(cha)詢(xun)請求,指派(pai)到相應的類(lei)別、主題數據服務(wu)器進行查(cha)(cha)詢(xun)。
11、頁面描述(shu)/摘要:為檢索和(he)排(pai)序(xu)完(wan)成(cheng)的網頁列表提供相(xiang)應(ying)的描述(shu)和(he)摘要。
12、前端:接受用(yong)戶(hu)請求,分發至相應(ying)服務器,返(fan)回查詢結果。