1、爬(pa)蟲(chong):從互聯網爬(pa)取(qu)原始網頁數據,存(cun)儲于文檔(dang)知識(shi)庫服務(wu)器。
2、文檔知識庫服務器:存儲原始網頁(ye)(ye)數(shu)據,通(tong)常(chang)是分布(bu)式(shi)Key-Value數(shu)據庫,能根據URL/UID快速獲取網頁(ye)(ye)內容(rong)。
3、索引(yin):讀取原始(shi)網頁(ye)數(shu)(shu)據,解析網頁(ye),抽取有效字段,生成索引(yin)數(shu)(shu)據。索引(yin)數(shu)(shu)據的生成方式(shi)通(tong)常是增(zeng)量(liang)的,分(fen)塊(kuai)/分(fen)片的,并(bing)會進(jin)行索引(yin)合并(bing)、優化(hua)和刪除。生成的索引(yin)數(shu)(shu)據通(tong)常包(bao)括:字典數(shu)(shu)據、倒排表、正排表、文檔(dang)屬性等。生成的索引(yin)存儲(chu)于(yu)索引(yin)服(fu)務(wu)器(qi)。
4、索引(yin)(yin)服(fu)務器:存儲(chu)索引(yin)(yin)數據(ju),主要是倒排表(biao),通(tong)常是分塊、分片存儲(chu),并支持增(zeng)量更新(xin)和(he)刪除。數據(ju)內容量非常大時,還根據(ju)類別、主題、時間、網頁質量劃分數據(ju)分區(qu)和(he)分布(bu),更好地服(fu)務在線查詢。
5、檢索:讀取倒排表(biao)索引,響(xiang)應前端查(cha)詢請求,返(fan)回相關(guan)文檔列表(biao)數據。
6、排(pai)序(xu):對(dui)檢(jian)索器(qi)返回的(de)文(wen)檔列(lie)表(biao)進行排(pai)序(xu),基(ji)于文(wen)檔和查詢的(de)相關(guan)性、文(wen)檔的(de)鏈接(jie)權(quan)重等屬性。
7、鏈(lian)(lian)接分(fen)析:收集各網(wang)(wang)頁的鏈(lian)(lian)接數據和錨文本(ben)(Anchor Text),以此計算各網(wang)(wang)頁鏈(lian)(lian)接評(ping)分(fen),最終會作為(wei)網(wang)(wang)頁屬(shu)性參(can)與返回結果排序。
8、網頁去重(zhong):提(ti)取各網頁的相關特征屬(shu)性(xing),計(ji)算相似(si)網頁組,提(ti)供(gong)離線(xian)(xian)索引和(he)在線(xian)(xian)查詢的去重(zhong)服(fu)務。
9、網頁(ye)反垃圾(ji):收(shou)集各(ge)網頁(ye)和網站歷史信息,提(ti)取垃圾(ji)網頁(ye)特征,從而對在線索(suo)引(yin)中(zhong)的(de)網頁(ye)進行判定(ding),去除垃圾(ji)網頁(ye)。
10、查詢(xun)(xun)分(fen)析:分(fen)析用戶查詢(xun)(xun),生(sheng)成結構化查詢(xun)(xun)請求,指派到(dao)相應的(de)類別、主題數(shu)據服務器進行查詢(xun)(xun)。
11、頁面描述/摘要:為檢索和(he)排序(xu)完(wan)成的網頁列表提(ti)供相應的描述和(he)摘要。
12、前(qian)端:接(jie)受用戶(hu)請求,分發至相(xiang)應服務器,返回查詢(xun)結果。