1、爬(pa)(pa)蟲:從互聯網爬(pa)(pa)取(qu)原始網頁數據,存儲于文檔知(zhi)識庫服務器。
2、文檔知識庫(ku)服務器:存儲(chu)原始網頁數據(ju)(ju),通常(chang)是分布式Key-Value數據(ju)(ju)庫(ku),能根據(ju)(ju)URL/UID快(kuai)速獲(huo)取網頁內容。
3、索(suo)引(yin)(yin)(yin):讀取原始(shi)網頁數(shu)據,解析網頁,抽取有效字(zi)段(duan),生(sheng)(sheng)成索(suo)引(yin)(yin)(yin)數(shu)據。索(suo)引(yin)(yin)(yin)數(shu)據的(de)生(sheng)(sheng)成方式通(tong)(tong)常是增量的(de),分塊/分片的(de),并(bing)會進行索(suo)引(yin)(yin)(yin)合并(bing)、優(you)化和刪除。生(sheng)(sheng)成的(de)索(suo)引(yin)(yin)(yin)數(shu)據通(tong)(tong)常包括:字(zi)典數(shu)據、倒(dao)排表、正排表、文(wen)檔屬性(xing)等。生(sheng)(sheng)成的(de)索(suo)引(yin)(yin)(yin)存儲于索(suo)引(yin)(yin)(yin)服務器。
4、索引(yin)服務器:存儲索引(yin)數(shu)據(ju),主要(yao)是倒(dao)排表(biao),通(tong)常是分(fen)(fen)塊、分(fen)(fen)片存儲,并(bing)支持增量更新和(he)刪除。數(shu)據(ju)內容量非常大時,還根(gen)據(ju)類別、主題、時間、網頁質量劃分(fen)(fen)數(shu)據(ju)分(fen)(fen)區和(he)分(fen)(fen)布,更好地服務在線查詢(xun)。
5、檢索(suo):讀(du)取(qu)倒排表(biao)索(suo)引,響(xiang)應前端查詢請求,返回相關文檔列表(biao)數據。
6、排序:對(dui)檢索器返回(hui)的文(wen)(wen)檔列(lie)表(biao)進行(xing)排序,基于(yu)文(wen)(wen)檔和查(cha)詢的相關性、文(wen)(wen)檔的鏈(lian)接權(quan)重等(deng)屬性。
7、鏈(lian)接分析:收(shou)集各(ge)(ge)網(wang)頁的(de)鏈(lian)接數據和錨文本(Anchor Text),以此計算各(ge)(ge)網(wang)頁鏈(lian)接評分,最(zui)終會(hui)作為網(wang)頁屬性(xing)參與返(fan)回結果排序。
8、網(wang)頁去(qu)重:提取各網(wang)頁的相(xiang)關特征屬性,計算相(xiang)似網(wang)頁組,提供(gong)離線(xian)索引和在(zai)線(xian)查詢的去(qu)重服務(wu)。
9、網(wang)(wang)頁(ye)反垃(la)(la)圾:收集各網(wang)(wang)頁(ye)和網(wang)(wang)站歷史信息(xi),提取垃(la)(la)圾網(wang)(wang)頁(ye)特征,從而對在線索引中的網(wang)(wang)頁(ye)進行判定(ding),去除垃(la)(la)圾網(wang)(wang)頁(ye)。
10、查(cha)(cha)詢(xun)分(fen)析:分(fen)析用戶(hu)查(cha)(cha)詢(xun),生成結構(gou)化查(cha)(cha)詢(xun)請求,指派到相應的類(lei)別、主題數(shu)據(ju)服(fu)務(wu)器進行查(cha)(cha)詢(xun)。
11、頁面描(miao)述/摘要(yao):為檢索和排(pai)序完成的(de)網頁列表提(ti)供相應(ying)的(de)描(miao)述和摘要(yao)。
12、前端:接受用戶請求,分發至相應服務(wu)器(qi),返回查詢(xun)結果。