1、爬蟲(chong):從互(hu)聯網(wang)(wang)爬取(qu)原始網(wang)(wang)頁數(shu)據,存儲于文檔知識(shi)庫服務(wu)器。
2、文檔(dang)知識庫服務器:存(cun)儲原始網頁數據(ju),通常是分布(bu)式Key-Value數據(ju)庫,能根據(ju)URL/UID快(kuai)速獲取網頁內容。
3、索(suo)(suo)引(yin)(yin)(yin)(yin):讀(du)取(qu)原(yuan)始網(wang)頁(ye)數(shu)據,解析網(wang)頁(ye),抽取(qu)有效字段,生成索(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)據。索(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)據的(de)生成方式通常是增量的(de),分塊/分片(pian)的(de),并(bing)會進行索(suo)(suo)引(yin)(yin)(yin)(yin)合并(bing)、優化和刪除。生成的(de)索(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)據通常包括:字典數(shu)據、倒(dao)排(pai)表、正排(pai)表、文檔屬性等。生成的(de)索(suo)(suo)引(yin)(yin)(yin)(yin)存儲于索(suo)(suo)引(yin)(yin)(yin)(yin)服務器(qi)。
4、索引(yin)服(fu)務器(qi):存儲索引(yin)數據(ju),主要(yao)是倒排表,通常是分(fen)(fen)塊、分(fen)(fen)片存儲,并支持(chi)增量(liang)更新和刪除。數據(ju)內容量(liang)非常大時,還(huan)根據(ju)類別、主題、時間、網頁質(zhi)量(liang)劃分(fen)(fen)數據(ju)分(fen)(fen)區和分(fen)(fen)布,更好地服(fu)務在線查詢。
5、檢索:讀取倒排表索引,響應前端查詢請求,返回(hui)相關(guan)文檔(dang)列表數(shu)據(ju)。
6、排序:對檢(jian)索器返回的文(wen)檔列表進行排序,基于文(wen)檔和查詢的相關性(xing)、文(wen)檔的鏈(lian)接權重等屬性(xing)。
7、鏈接分(fen)(fen)析(xi):收集(ji)各(ge)網(wang)頁的鏈接數據和錨文本(Anchor Text),以此計算(suan)各(ge)網(wang)頁鏈接評分(fen)(fen),最終會作(zuo)為網(wang)頁屬(shu)性(xing)參與返回結果排序。
8、網頁去(qu)重:提取各網頁的相關特征(zheng)屬性,計算相似網頁組(zu),提供離線(xian)索引和在線(xian)查詢的去(qu)重服務。
9、網頁反(fan)垃圾:收集(ji)各網頁和網站(zhan)歷史信息,提取垃圾網頁特征,從(cong)而對在(zai)線索(suo)引中的網頁進行判定,去除垃圾網頁。
10、查(cha)詢(xun)(xun)分(fen)(fen)析:分(fen)(fen)析用戶查(cha)詢(xun)(xun),生成結構化查(cha)詢(xun)(xun)請求,指派(pai)到相應的類別(bie)、主題數據服務(wu)器進行(xing)查(cha)詢(xun)(xun)。
11、頁面描(miao)述/摘(zhai)要:為(wei)檢索和排序完成(cheng)的網頁列表提供(gong)相應的描(miao)述和摘(zhai)要。
12、前端:接受用戶請求,分發至相應(ying)服務器,返回查詢(xun)結果(guo)。