1、爬蟲:從互聯網爬取原始網頁數據,存儲于文檔知(zhi)識庫服(fu)務器。
2、文檔(dang)知識庫(ku)服務器:存儲原始網(wang)頁數(shu)據(ju),通(tong)常是(shi)分布式Key-Value數(shu)據(ju)庫(ku),能根據(ju)URL/UID快速獲取網(wang)頁內容。
3、索(suo)(suo)引(yin)(yin):讀取原始網頁(ye)數據,解析(xi)網頁(ye),抽取有(you)效(xiao)字段,生(sheng)(sheng)成索(suo)(suo)引(yin)(yin)數據。索(suo)(suo)引(yin)(yin)數據的(de)生(sheng)(sheng)成方式通常是增量的(de),分塊/分片的(de),并會進行(xing)索(suo)(suo)引(yin)(yin)合并、優化和(he)刪(shan)除。生(sheng)(sheng)成的(de)索(suo)(suo)引(yin)(yin)數據通常包括(kuo):字典數據、倒排表(biao)、正排表(biao)、文(wen)檔(dang)屬(shu)性等(deng)。生(sheng)(sheng)成的(de)索(suo)(suo)引(yin)(yin)存儲于(yu)索(suo)(suo)引(yin)(yin)服務器。
4、索引(yin)服(fu)務器(qi):存儲(chu)索引(yin)數據(ju),主要是倒排表,通常是分塊、分片存儲(chu),并支持(chi)增量更(geng)新和刪除。數據(ju)內(nei)容量非(fei)常大時,還根據(ju)類別、主題、時間(jian)、網頁質量劃分數據(ju)分區和分布,更(geng)好地服(fu)務在線(xian)查(cha)詢。
5、檢索:讀取倒排表索引(yin),響應前端(duan)查(cha)詢請求(qiu),返(fan)回相(xiang)關文檔列表數據。
6、排序:對檢索器返(fan)回的(de)文檔(dang)列表進行排序,基(ji)于文檔(dang)和(he)查詢的(de)相關性、文檔(dang)的(de)鏈接權(quan)重等屬性。
7、鏈(lian)(lian)接(jie)分析(xi):收(shou)集各(ge)網頁(ye)(ye)的鏈(lian)(lian)接(jie)數(shu)據和錨文本(Anchor Text),以(yi)此計算(suan)各(ge)網頁(ye)(ye)鏈(lian)(lian)接(jie)評分,最終會作為網頁(ye)(ye)屬(shu)性(xing)參與返回結果排(pai)序。
8、網(wang)頁去(qu)重(zhong):提取各網(wang)頁的(de)(de)相關特(te)征(zheng)屬性,計算相似網(wang)頁組,提供離線索引(yin)和在線查詢的(de)(de)去(qu)重(zhong)服(fu)務。
9、網(wang)頁反垃圾(ji):收集(ji)各網(wang)頁和網(wang)站歷史信息,提取(qu)垃圾(ji)網(wang)頁特征,從(cong)而對(dui)在線索引中的網(wang)頁進行判定,去除垃圾(ji)網(wang)頁。
10、查(cha)(cha)詢(xun)(xun)分析:分析用戶查(cha)(cha)詢(xun)(xun),生(sheng)成(cheng)結構化查(cha)(cha)詢(xun)(xun)請求,指派到相(xiang)應的類別、主題數(shu)據(ju)服務器進(jin)行查(cha)(cha)詢(xun)(xun)。
11、頁面(mian)描述/摘要:為檢(jian)索和排(pai)序完成的網頁列表提供相應的描述和摘要。
12、前端:接受用戶請(qing)求,分發至相應(ying)服務器,返(fan)回查(cha)詢結果。