一、什么是搜索引擎
搜索引擎是(shi)指(zhi)根據一定的(de)策(ce)略、運用(yong)特定的(de)計算機(ji)程序(xu)從互聯網上(shang)采集信(xin)(xin)息(xi)(xi)(xi),在(zai)對信(xin)(xin)息(xi)(xi)(xi)進(jin)行組(zu)織和處理后,為(wei)用(yong)戶(hu)提(ti)供(gong)檢索(suo)服(fu)務,將檢索(suo)的(de)相關信(xin)(xin)息(xi)(xi)(xi)展示(shi)給用(yong)戶(hu)的(de)系統。搜(sou)(sou)索(suo)引(yin)擎(qing)是(shi)工作于互聯網上(shang)的(de)一門檢索(suo)技術(shu),它指(zhi)在(zai)提(ti)高人們獲(huo)取搜(sou)(sou)集信(xin)(xin)息(xi)(xi)(xi)的(de)速度(du),為(wei)人們提(ti)供(gong)更好的(de)網絡使用(yong)環境。從功能和原理上(shang)搜(sou)(sou)索(suo)引(yin)擎(qing)大致被分為(wei)全文搜(sou)(sou)索(suo)引(yin)擎(qing)、元搜(sou)(sou)索(suo)引(yin)擎(qing)、垂直(zhi)搜(sou)(sou)索(suo)引(yin)擎(qing)和目(mu)錄搜(sou)(sou)索(suo)引(yin)擎(qing)等四大類。
二、搜索引擎的工作原理
搜索引(yin)(yin)擎(qing)的(de)工作原理是從(cong)互聯網上抓取網頁(ye),建立索引(yin)(yin)數據(ju)(ju)庫(ku),在(zai)索引(yin)(yin)數據(ju)(ju)庫(ku)中搜索排序(xu)。它(ta)的(de)整(zheng)個工作過(guo)程大體分(fen)(fen)(fen)為(wei)信(xin)(xin)息(xi)采集(ji)、信(xin)(xin)息(xi)分(fen)(fen)(fen)析、信(xin)(xin)息(xi)查(cha)(cha)(cha)詢(xun)(xun)(xun)和用戶(hu)接口四(si)部分(fen)(fen)(fen)。信(xin)(xin)息(xi)采集(ji)是網絡機器(qi)人掃描一定IP地址范圍內的(de)網站,通過(guo)鏈接遍歷(li)Web空間,來進行采集(ji)網頁(ye)資料,為(wei)保證采集(ji)的(de)資料最(zui)新,網絡機器(qi)人還會(hui)回訪已(yi)抓取過(guo)的(de)網頁(ye);信(xin)(xin)息(xi)分(fen)(fen)(fen)析是通過(guo)分(fen)(fen)(fen)析程序(xu),從(cong)采集(ji)的(de)信(xin)(xin)息(xi)中提取索引(yin)(yin)項(xiang)(xiang),用索引(yin)(yin)項(xiang)(xiang)表示(shi)文檔(dang)并生成文檔(dang)庫(ku)的(de)索引(yin)(yin)表,從(cong)而(er)建立索引(yin)(yin)數據(ju)(ju)庫(ku);信(xin)(xin)息(xi)查(cha)(cha)(cha)詢(xun)(xun)(xun)是指用戶(hu)以(yi)關(guan)(guan)鍵詞查(cha)(cha)(cha)找信(xin)(xin)息(xi)時(shi),搜索引(yin)(yin)擎(qing)會(hui)根(gen)據(ju)(ju)用戶(hu)的(de)查(cha)(cha)(cha)詢(xun)(xun)(xun)條(tiao)(tiao)件(jian)在(zai)索引(yin)(yin)庫(ku)中快(kuai)速檢索文檔(dang),然后對檢出的(de)文檔(dang)與查(cha)(cha)(cha)詢(xun)(xun)(xun)條(tiao)(tiao)件(jian)的(de)相關(guan)(guan)度(du)進行評(ping)價,最(zui)后根(gen)據(ju)(ju)相關(guan)(guan)度(du)對檢索結(jie)果進行排序(xu)并輸(shu)出。
三、搜索引擎的工作流程
1、爬行和抓取
搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)派(pai)出一(yi)(yi)個能夠(gou)在(zai)網(wang)(wang)上發現新網(wang)(wang)頁(ye)(ye)(ye)(ye)并(bing)抓(zhua)(zhua)文件的(de)程(cheng)序(xu),這(zhe)(zhe)個程(cheng)序(xu)通常稱(cheng)之為蜘蛛(Spider)。搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)從(cong)已知(zhi)的(de)數據庫(ku)出發,就像正(zheng)常用(yong)戶的(de)瀏(liu)覽器一(yi)(yi)樣(yang)訪問這(zhe)(zhe)些(xie)(xie)網(wang)(wang)頁(ye)(ye)(ye)(ye)并(bing)抓(zhua)(zhua)取(qu)文件。搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)通過這(zhe)(zhe)些(xie)(xie)爬蟲(chong)去(qu)爬互(hu)聯網(wang)(wang)上的(de)外鏈(lian)(lian),從(cong)這(zhe)(zhe)個網(wang)(wang)站(zhan)爬到另一(yi)(yi)個網(wang)(wang)站(zhan),去(qu)跟蹤(zong)網(wang)(wang)頁(ye)(ye)(ye)(ye)中的(de)鏈(lian)(lian)接(jie),訪問更多的(de)網(wang)(wang)頁(ye)(ye)(ye)(ye),這(zhe)(zhe)個過程(cheng)就叫(jiao)爬行。這(zhe)(zhe)些(xie)(xie)新的(de)網(wang)(wang)址(zhi)會被存(cun)入(ru)數據庫(ku)等待(dai)搜索(suo)(suo)(suo)。所以跟蹤(zong)網(wang)(wang)頁(ye)(ye)(ye)(ye)鏈(lian)(lian)接(jie)是搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)蜘蛛(Spider)發現新網(wang)(wang)址(zhi)的(de)最基本(ben)(ben)的(de)方(fang)法(fa),所以反(fan)向鏈(lian)(lian)接(jie)成為搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)優(you)化(hua)的(de)最基本(ben)(ben)因素之一(yi)(yi)。搜索(suo)(suo)(suo)引擎(qing)(qing)(qing)抓(zhua)(zhua)取(qu)的(de)頁(ye)(ye)(ye)(ye)面文件與用(yong)戶瀏(liu)覽器得到的(de)完全一(yi)(yi)樣(yang),抓(zhua)(zhua)取(qu)的(de)文件存(cun)入(ru)數據庫(ku)。
2、建立索引
蜘蛛抓取的頁(ye)(ye)面文(wen)件分(fen)解、分(fen)析,并(bing)以(yi)巨大(da)表格(ge)的形(xing)式存(cun)入數(shu)據庫,這個過(guo)程即(ji)是(shi)索引(yin)(index)。在索引(yin)數(shu)據庫中,網頁(ye)(ye)文(wen)字內(nei)容,關(guan)鍵(jian)詞(ci)出現的位(wei)置、字體、顏色、加(jia)粗(cu)、斜體等相(xiang)關(guan)信息(xi)都有相(xiang)應(ying)記錄。
3、搜索詞處理
用戶在搜(sou)(sou)索(suo)(suo)(suo)(suo)引擎(qing)界面輸(shu)入關鍵詞,單擊“搜(sou)(sou)索(suo)(suo)(suo)(suo)”按鈕(niu)后,搜(sou)(sou)索(suo)(suo)(suo)(suo)引擎(qing)程序(xu)即對(dui)搜(sou)(sou)索(suo)(suo)(suo)(suo)詞進行(xing)處理(li),如(ru)中文特(te)有(you)(you)的分(fen)詞處理(li),去除(chu)停止詞,判斷是(shi)否需要(yao)啟(qi)動整合搜(sou)(sou)索(suo)(suo)(suo)(suo),判斷是(shi)否有(you)(you)拼寫錯誤或錯別(bie)字(zi)等(deng)情況。搜(sou)(sou)索(suo)(suo)(suo)(suo)詞的處理(li)必須十分(fen)快速(su)。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也(ye)無法(fa)與人相比(bi),這就是為什么網站要進行搜索引擎優(you)化(SEO)。沒有SEO的幫助,搜索引擎常常并(bing)不能正確的返回最(zui)(zui)相關(guan)、最(zui)(zui)權威、最(zui)(zui)有用(yong)的信息。