1、爬(pa)蟲:從互聯網爬(pa)取原(yuan)始(shi)網頁數據,存儲于文檔知(zhi)識庫服務(wu)器。
2、文檔知(zhi)識(shi)庫服(fu)務器:存儲原始網(wang)頁(ye)數據(ju),通常是(shi)分(fen)布式Key-Value數據(ju)庫,能根據(ju)URL/UID快速獲取網(wang)頁(ye)內容。
3、索(suo)引(yin):讀(du)取(qu)(qu)原(yuan)始網頁數(shu)據,解析網頁,抽取(qu)(qu)有效字段,生(sheng)成索(suo)引(yin)數(shu)據。索(suo)引(yin)數(shu)據的(de)生(sheng)成方(fang)式通常是增(zeng)量(liang)的(de),分(fen)塊/分(fen)片的(de),并(bing)(bing)會(hui)進行索(suo)引(yin)合并(bing)(bing)、優化和刪(shan)除。生(sheng)成的(de)索(suo)引(yin)數(shu)據通常包括:字典(dian)數(shu)據、倒排表(biao)、正排表(biao)、文檔屬性等。生(sheng)成的(de)索(suo)引(yin)存儲(chu)于索(suo)引(yin)服務器。
4、索引服務(wu)器:存儲(chu)索引數(shu)據,主(zhu)要是倒排表,通常是分(fen)塊、分(fen)片存儲(chu),并(bing)支持增量(liang)更(geng)新和刪除。數(shu)據內容(rong)量(liang)非(fei)常大(da)時,還根據類別、主(zhu)題、時間、網頁質量(liang)劃分(fen)數(shu)據分(fen)區和分(fen)布(bu),更(geng)好地服務(wu)在線查詢。
5、檢索(suo):讀取倒排(pai)表索(suo)引,響應前端查詢請求,返(fan)回(hui)相關(guan)文檔列表數(shu)據。
6、排(pai)序:對(dui)檢(jian)索器返(fan)回(hui)的文檔列表進行排(pai)序,基于文檔和查詢的相關性、文檔的鏈接權重等屬性。
7、鏈接(jie)(jie)分(fen)析:收(shou)集各(ge)網頁(ye)的鏈接(jie)(jie)數據(ju)和(he)錨文本(Anchor Text),以此計算各(ge)網頁(ye)鏈接(jie)(jie)評分(fen),最(zui)終(zhong)會作為網頁(ye)屬性參(can)與返(fan)回結(jie)果排(pai)序。
8、網頁(ye)去(qu)重:提取各網頁(ye)的相關特(te)征屬性,計算(suan)相似(si)網頁(ye)組,提供離線索引和在線查詢的去(qu)重服務。
9、網(wang)(wang)頁反垃圾:收(shou)集各網(wang)(wang)頁和網(wang)(wang)站歷(li)史信息,提取垃圾網(wang)(wang)頁特征,從而對在線索引中的網(wang)(wang)頁進(jin)行判定,去除(chu)垃圾網(wang)(wang)頁。
10、查詢分(fen)析:分(fen)析用戶查詢,生成(cheng)結(jie)構(gou)化(hua)查詢請求(qiu),指派到相(xiang)應的類別、主題數據服務器進行查詢。
11、頁面描述/摘要(yao)(yao):為(wei)檢(jian)索(suo)和排序完成的網頁列表提(ti)供相應的描述和摘要(yao)(yao)。
12、前端(duan):接受用戶(hu)請求,分發至相(xiang)應服務器(qi),返回查詢(xun)結果。