一、搜索引擎的基本結構
搜索引擎基本結構一般包括(kuo):搜索器、索引(yin)器、檢索器、用戶接口(kou)等四個功能模塊(kuai)。
1、搜索器
搜索器也叫網絡(luo)蜘蛛,是搜索引擎用來(lai)爬行和抓取(qu)(qu)網頁的一(yi)個自動程(cheng)序,在(zai)系統后臺(tai)不停(ting)歇地在(zai)互聯網各個節點爬行,在(zai)爬行過程(cheng)中(zhong)盡(jin)可能(neng)快的發現和抓取(qu)(qu)網頁。
2、索引器
它的(de)主要功能是理解搜索器(qi)所采集的(de)網(wang)頁信息,并(bing)從中抽取索引項。
3、檢索器
其功能是快速查找文檔,進(jin)行(xing)文檔與查詢的(de)相關度評價,對要輸出的(de)結(jie)果進(jin)行(xing)排序(xu)。
4、用戶接口
它為用戶提供可(ke)視(shi)化(hua)的查詢輸入和結果輸出(chu)的界(jie)面。
二、搜索引擎的主要模塊及功能
1、爬蟲:從互聯網爬取原始網頁(ye)數據,存(cun)儲于文檔知識庫服務器。
2、文檔(dang)知識庫(ku)服務器(qi):存(cun)儲原始網頁數據,通常(chang)是分布式Key-Value數據庫(ku),能(neng)根據URL/UID快速(su)獲取網頁內(nei)容。
3、索(suo)引(yin)(yin):讀取(qu)原始(shi)網頁數(shu)據(ju),解(jie)析網頁,抽取(qu)有效字(zi)(zi)段,生(sheng)成索(suo)引(yin)(yin)數(shu)據(ju)。索(suo)引(yin)(yin)數(shu)據(ju)的(de)(de)生(sheng)成方(fang)式通常是增量(liang)的(de)(de),分塊/分片的(de)(de),并會進行索(suo)引(yin)(yin)合并、優化和刪除。生(sheng)成的(de)(de)索(suo)引(yin)(yin)數(shu)據(ju)通常包括:字(zi)(zi)典數(shu)據(ju)、倒排(pai)表(biao)、正排(pai)表(biao)、文檔屬性等。生(sheng)成的(de)(de)索(suo)引(yin)(yin)存儲于(yu)索(suo)引(yin)(yin)服務器。
4、索引服(fu)務器:存儲(chu)索引數(shu)據,主要(yao)是(shi)倒(dao)排表(biao),通常是(shi)分(fen)塊(kuai)、分(fen)片存儲(chu),并支持增量更新和刪(shan)除。數(shu)據內容量非常大時(shi),還根(gen)據類別、主題、時(shi)間、網頁質量劃分(fen)數(shu)據分(fen)區和分(fen)布,更好地服(fu)務在(zai)線(xian)查(cha)詢(xun)。
5、檢(jian)索:讀(du)取倒排表(biao)(biao)索引,響應前端(duan)查詢請(qing)求,返回相(xiang)關(guan)文檔列(lie)表(biao)(biao)數據。
6、排(pai)序:對檢索(suo)器返回的(de)文(wen)檔(dang)列表進行排(pai)序,基于文(wen)檔(dang)和查詢的(de)相關(guan)性、文(wen)檔(dang)的(de)鏈接(jie)權重等(deng)屬(shu)性。
7、鏈接分(fen)析:收(shou)集各網頁(ye)(ye)的鏈接數(shu)據(ju)和錨文(wen)本(Anchor Text),以此(ci)計(ji)算(suan)各網頁(ye)(ye)鏈接評分(fen),最終會作(zuo)為(wei)網頁(ye)(ye)屬性參與(yu)返回(hui)結果排序。
8、網(wang)頁(ye)去(qu)重:提取各網(wang)頁(ye)的相(xiang)關特征屬性(xing),計算相(xiang)似網(wang)頁(ye)組,提供離線索引和(he)在線查詢的去(qu)重服務。
9、網(wang)頁(ye)反(fan)垃(la)圾:收集各網(wang)頁(ye)和網(wang)站歷(li)史信(xin)息,提(ti)取垃(la)圾網(wang)頁(ye)特征,從而對在線(xian)索引中的網(wang)頁(ye)進(jin)行判定,去除垃(la)圾網(wang)頁(ye)。
10、查(cha)(cha)(cha)(cha)詢(xun)分析:分析用戶查(cha)(cha)(cha)(cha)詢(xun),生成結構化查(cha)(cha)(cha)(cha)詢(xun)請求,指派到相應的類(lei)別、主題數(shu)據(ju)服務器進行(xing)查(cha)(cha)(cha)(cha)詢(xun)。
11、頁面描述/摘要:為檢索(suo)和(he)排序完成的網頁列表提供相應的描述和(he)摘要。
12、前端:接受(shou)用戶請求(qiu),分(fen)發至相應服(fu)務器,返回查詢(xun)結果。