1、爬(pa)蟲:從互聯網爬(pa)取原始網頁數據,存儲于文檔(dang)知識庫服務器(qi)。
2、文檔知識庫服務器:存儲原始網頁數據,通(tong)常是(shi)分(fen)布式Key-Value數據庫,能根據URL/UID快速(su)獲取網頁內(nei)容(rong)。
3、索(suo)引:讀取原始網(wang)頁(ye)(ye)數(shu)(shu)據(ju),解(jie)析網(wang)頁(ye)(ye),抽取有效(xiao)字段(duan),生成(cheng)索(suo)引數(shu)(shu)據(ju)。索(suo)引數(shu)(shu)據(ju)的(de)(de)生成(cheng)方式通常是增量的(de)(de),分(fen)塊/分(fen)片的(de)(de),并(bing)會進行索(suo)引合(he)并(bing)、優化和刪除。生成(cheng)的(de)(de)索(suo)引數(shu)(shu)據(ju)通常包括:字典數(shu)(shu)據(ju)、倒排(pai)表、正排(pai)表、文檔屬(shu)性(xing)等。生成(cheng)的(de)(de)索(suo)引存(cun)儲(chu)于索(suo)引服(fu)務器。
4、索(suo)引服務(wu)器(qi):存儲(chu)索(suo)引數據,主要是倒排表,通常是分塊、分片存儲(chu),并支持增量(liang)更新和(he)刪(shan)除。數據內容量(liang)非常大時(shi),還根據類別(bie)、主題、時(shi)間(jian)、網頁質量(liang)劃分數據分區和(he)分布,更好(hao)地服務(wu)在線(xian)查詢。
5、檢索:讀取倒排表索引,響應前端查(cha)詢請求,返回相關文檔列表數據。
6、排序:對檢索(suo)器返回(hui)的文(wen)檔列表進行(xing)排序,基于文(wen)檔和查詢的相關性(xing)、文(wen)檔的鏈接(jie)權(quan)重(zhong)等屬性(xing)。
7、鏈(lian)接(jie)(jie)分(fen)析(xi):收集各網(wang)頁的鏈(lian)接(jie)(jie)數據和(he)錨文本(ben)(Anchor Text),以此計(ji)算各網(wang)頁鏈(lian)接(jie)(jie)評分(fen),最終會作為(wei)網(wang)頁屬性參與返回結果排序。
8、網頁(ye)去重:提(ti)取各網頁(ye)的相關特征屬性(xing),計算相似(si)網頁(ye)組(zu),提(ti)供離(li)線索(suo)引和(he)在線查詢的去重服務。
9、網(wang)頁反垃(la)(la)圾:收(shou)集各網(wang)頁和網(wang)站(zhan)歷史信息,提取垃(la)(la)圾網(wang)頁特征,從而對在線索(suo)引中的網(wang)頁進行判定,去(qu)除(chu)垃(la)(la)圾網(wang)頁。
10、查(cha)詢(xun)(xun)分(fen)析:分(fen)析用(yong)戶查(cha)詢(xun)(xun),生成結構化查(cha)詢(xun)(xun)請求,指派到(dao)相(xiang)應的類別、主題數(shu)據(ju)服(fu)務(wu)器(qi)進行(xing)查(cha)詢(xun)(xun)。
11、頁面描述/摘要:為檢索和排(pai)序完(wan)成的網頁列表(biao)提供(gong)相(xiang)應的描述和摘要。
12、前(qian)端:接受用戶請求(qiu),分發(fa)至相應服務(wu)器,返回(hui)查詢結果。