1、爬蟲:從(cong)互聯網(wang)爬取原始網(wang)頁數據,存(cun)儲(chu)于文(wen)檔知識庫服務(wu)器。
2、文檔知識庫服務器:存儲原始網頁數(shu)據,通常是分(fen)布式Key-Value數(shu)據庫,能根據URL/UID快速獲取(qu)網頁內(nei)容。
3、索引(yin):讀取原始網頁(ye)(ye)數據,解析網頁(ye)(ye),抽取有效字段,生(sheng)成索引(yin)數據。索引(yin)數據的(de)(de)生(sheng)成方(fang)式通(tong)常(chang)(chang)是(shi)增量(liang)的(de)(de),分(fen)塊/分(fen)片的(de)(de),并會進行索引(yin)合(he)并、優化和(he)刪除。生(sheng)成的(de)(de)索引(yin)數據通(tong)常(chang)(chang)包(bao)括:字典數據、倒排表(biao)(biao)、正排表(biao)(biao)、文檔屬性等(deng)。生(sheng)成的(de)(de)索引(yin)存(cun)儲于索引(yin)服務器(qi)。
4、索引(yin)(yin)服(fu)務器:存儲索引(yin)(yin)數據,主要是倒(dao)排表,通(tong)常(chang)是分塊、分片(pian)存儲,并支持增量更(geng)新(xin)和(he)刪除。數據內容量非常(chang)大(da)時,還(huan)根(gen)據類別、主題、時間、網頁質量劃(hua)分數據分區和(he)分布,更(geng)好地服(fu)務在(zai)線查(cha)詢。
5、檢索:讀取倒排(pai)表(biao)索引(yin),響應前(qian)端查詢請(qing)求,返(fan)回相關文(wen)檔列表(biao)數據。
6、排序:對檢索器返回的文檔列表進(jin)行排序,基于文檔和查詢的相關性、文檔的鏈接權(quan)重(zhong)等屬性。
7、鏈(lian)接分(fen)析:收(shou)集各網頁(ye)的鏈(lian)接數據和錨文(wen)本(Anchor Text),以此計算各網頁(ye)鏈(lian)接評(ping)分(fen),最終會(hui)作為網頁(ye)屬性參(can)與返(fan)回結果排序。
8、網(wang)頁(ye)去重(zhong):提(ti)取各網(wang)頁(ye)的(de)相(xiang)關特(te)征屬(shu)性,計(ji)算(suan)相(xiang)似網(wang)頁(ye)組,提(ti)供(gong)離線(xian)索引和在線(xian)查詢的(de)去重(zhong)服務。
9、網(wang)(wang)頁反(fan)垃(la)圾(ji)(ji):收集各網(wang)(wang)頁和網(wang)(wang)站歷史信息,提取垃(la)圾(ji)(ji)網(wang)(wang)頁特征,從(cong)而(er)對在(zai)線索引中的網(wang)(wang)頁進(jin)行判定,去除垃(la)圾(ji)(ji)網(wang)(wang)頁。
10、查(cha)(cha)詢(xun)(xun)(xun)分(fen)(fen)析:分(fen)(fen)析用戶查(cha)(cha)詢(xun)(xun)(xun),生成結構(gou)化查(cha)(cha)詢(xun)(xun)(xun)請求,指派到相應的(de)類別、主題數據服務器進(jin)行查(cha)(cha)詢(xun)(xun)(xun)。
11、頁面(mian)描述(shu)/摘要:為檢索和排(pai)序完成(cheng)的網(wang)頁列表提供相應的描述(shu)和摘要。
12、前(qian)端:接受用戶(hu)請求,分發至相應服(fu)務器,返(fan)回(hui)查詢結(jie)果。