1、爬(pa)蟲:從互聯網爬(pa)取(qu)原(yuan)始網頁數據,存(cun)儲(chu)于(yu)文檔知識庫服務(wu)器(qi)。
2、文(wen)檔知識庫(ku)服(fu)務(wu)器(qi):存儲原(yuan)始網頁數據(ju)(ju),通常是分布(bu)式(shi)Key-Value數據(ju)(ju)庫(ku),能根據(ju)(ju)URL/UID快速(su)獲(huo)取網頁內容(rong)。
3、索引(yin)(yin):讀取原始網頁(ye)(ye)數(shu)據(ju)(ju),解析網頁(ye)(ye),抽取有效字段,生(sheng)成索引(yin)(yin)數(shu)據(ju)(ju)。索引(yin)(yin)數(shu)據(ju)(ju)的(de)生(sheng)成方式通(tong)常是增量的(de),分塊/分片的(de),并會進(jin)行索引(yin)(yin)合并、優(you)化(hua)和刪(shan)除。生(sheng)成的(de)索引(yin)(yin)數(shu)據(ju)(ju)通(tong)常包括:字典數(shu)據(ju)(ju)、倒排(pai)表(biao)、正排(pai)表(biao)、文檔屬性等。生(sheng)成的(de)索引(yin)(yin)存儲于索引(yin)(yin)服務(wu)器(qi)。
4、索引服務器:存(cun)儲索引數(shu)據,主要是倒排表,通常是分(fen)(fen)塊、分(fen)(fen)片存(cun)儲,并支持增量(liang)更新和(he)刪(shan)除。數(shu)據內容量(liang)非常大時(shi),還(huan)根據類別(bie)、主題、時(shi)間、網頁質量(liang)劃分(fen)(fen)數(shu)據分(fen)(fen)區和(he)分(fen)(fen)布,更好地服務在線查詢。
5、檢索(suo):讀取(qu)倒排(pai)表(biao)索(suo)引,響(xiang)應前(qian)端查詢請求,返回(hui)相關文檔列表(biao)數據。
6、排序:對檢(jian)索器(qi)返回的文檔列(lie)表(biao)進行(xing)排序,基于文檔和查(cha)詢(xun)的相關性(xing)、文檔的鏈接權(quan)重等(deng)屬性(xing)。
7、鏈接分析:收集各網頁(ye)的鏈接數據和錨文本(Anchor Text),以此計算各網頁(ye)鏈接評分,最(zui)終會(hui)作(zuo)為網頁(ye)屬性參與返回結果(guo)排(pai)序(xu)。
8、網頁去重:提取各網頁的相(xiang)關特征屬性(xing),計算(suan)相(xiang)似(si)網頁組,提供離(li)線索引和(he)在線查詢的去重服(fu)務。
9、網(wang)(wang)頁反垃圾:收集各網(wang)(wang)頁和(he)網(wang)(wang)站歷史信息(xi),提(ti)取垃圾網(wang)(wang)頁特征,從(cong)而對在線(xian)索引(yin)中的網(wang)(wang)頁進行(xing)判定,去(qu)除垃圾網(wang)(wang)頁。
10、查(cha)詢分析(xi):分析(xi)用戶(hu)查(cha)詢,生成結構化查(cha)詢請(qing)求,指派到相應的類別、主題數(shu)據服務器進行查(cha)詢。
11、頁面描述(shu)(shu)/摘要:為檢(jian)索和排序完成的(de)網(wang)頁列表提(ti)供相應的(de)描述(shu)(shu)和摘要。
12、前端:接(jie)受用戶請(qing)求,分發至相應(ying)服(fu)務器,返回查(cha)詢結果。