1、爬(pa)(pa)蟲:從(cong)互聯網爬(pa)(pa)取原始網頁(ye)數據,存儲于(yu)文檔知識(shi)庫服務器(qi)。
2、文檔知(zhi)識庫服務器(qi):存儲(chu)原始(shi)網頁數據,通(tong)常是分布式Key-Value數據庫,能根據URL/UID快速獲(huo)取網頁內(nei)容(rong)。
3、索引:讀取原始網(wang)頁(ye)數據(ju),解析網(wang)頁(ye),抽取有效字(zi)段,生成(cheng)索引數據(ju)。索引數據(ju)的生成(cheng)方式通(tong)常是增量的,分塊/分片的,并(bing)會進行索引合并(bing)、優化和刪除(chu)。生成(cheng)的索引數據(ju)通(tong)常包括:字(zi)典數據(ju)、倒排表、正排表、文檔屬(shu)性(xing)等。生成(cheng)的索引存儲于(yu)索引服務器。
4、索(suo)(suo)引(yin)服務器:存(cun)儲索(suo)(suo)引(yin)數據(ju)(ju),主(zhu)要是倒排(pai)表,通常是分(fen)塊、分(fen)片存(cun)儲,并支持增(zeng)量更新和刪除。數據(ju)(ju)內容量非常大時,還根(gen)據(ju)(ju)類別、主(zhu)題(ti)、時間、網頁(ye)質量劃分(fen)數據(ju)(ju)分(fen)區和分(fen)布,更好地服務在線查(cha)詢。
5、檢(jian)索(suo):讀(du)取倒排表索(suo)引,響(xiang)應(ying)前端(duan)查詢請求(qiu),返回相關文(wen)檔列表數據。
6、排(pai)序(xu)(xu):對(dui)檢索器(qi)返回(hui)的文檔列表進行排(pai)序(xu)(xu),基(ji)于(yu)文檔和(he)查詢的相關性、文檔的鏈接(jie)權重等屬性。
7、鏈接分析:收集各網頁(ye)的鏈接數(shu)據和錨文本(Anchor Text),以此計算各網頁(ye)鏈接評分,最終會(hui)作為網頁(ye)屬性參與返回結果排序(xu)。
8、網頁去重(zhong):提(ti)取各網頁的相(xiang)關特征屬性,計(ji)算相(xiang)似網頁組,提(ti)供離線索引和在線查詢(xun)的去重(zhong)服(fu)務。
9、網(wang)頁(ye)反垃(la)(la)圾:收集(ji)各(ge)網(wang)頁(ye)和網(wang)站歷史信息,提取垃(la)(la)圾網(wang)頁(ye)特(te)征,從而對在線索引中(zhong)的網(wang)頁(ye)進行判定,去除垃(la)(la)圾網(wang)頁(ye)。
10、查(cha)詢(xun)分(fen)析(xi):分(fen)析(xi)用戶(hu)查(cha)詢(xun),生成結構化查(cha)詢(xun)請求,指派到(dao)相(xiang)應的(de)類別(bie)、主題數據服務(wu)器進行查(cha)詢(xun)。
11、頁(ye)面(mian)描述/摘要(yao):為檢(jian)索(suo)和(he)排序完成(cheng)的(de)網頁(ye)列表提供(gong)相(xiang)應(ying)的(de)描述和(he)摘要(yao)。
12、前(qian)端:接受用戶請(qing)求,分發至相應(ying)服(fu)務器,返回查詢結果。