一、什么是搜索引擎
搜索引擎是指(zhi)根據一定的(de)策略、運用特定的(de)計算(suan)機程(cheng)序從互聯網(wang)上采集信息,在(zai)對信息進行組織和(he)處(chu)理后(hou),為用戶提供檢(jian)(jian)索(suo)(suo)(suo)服務,將檢(jian)(jian)索(suo)(suo)(suo)的(de)相關信息展示(shi)給用戶的(de)系統。搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)是工作于互聯網(wang)上的(de)一門(men)檢(jian)(jian)索(suo)(suo)(suo)技術,它(ta)指(zhi)在(zai)提高人們獲取(qu)搜集信息的(de)速度(du),為人們提供更好的(de)網(wang)絡(luo)使用環境。從功能和(he)原理上搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)大(da)致被分(fen)為全文搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、元(yuan)搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、垂直搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)和(he)目錄搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)等四(si)大(da)類。
二、搜索引擎的工作原理
搜索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)擎的工(gong)作原理是(shi)從(cong)互聯網上(shang)抓(zhua)取網頁,建(jian)立索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)(shu)據(ju)庫,在索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)(shu)據(ju)庫中搜索(suo)(suo)(suo)(suo)排(pai)序。它的整個(ge)工(gong)作過程(cheng)大體分為(wei)信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)采(cai)集(ji)、信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)分析(xi)(xi)、信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)查詢(xun)和用(yong)戶(hu)(hu)(hu)接口四部分。信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)采(cai)集(ji)是(shi)網絡機器人掃描(miao)一定IP地址范圍內的網站,通過鏈(lian)接遍歷Web空間,來(lai)進(jin)行采(cai)集(ji)網頁資料,為(wei)保證(zheng)采(cai)集(ji)的資料最新,網絡機器人還(huan)會回(hui)訪已抓(zhua)取過的網頁;信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)分析(xi)(xi)是(shi)通過分析(xi)(xi)程(cheng)序,從(cong)采(cai)集(ji)的信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)中提(ti)取索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)項,用(yong)索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)項表(biao)示文檔并生(sheng)成(cheng)文檔庫的索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)表(biao),從(cong)而建(jian)立索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)數(shu)(shu)據(ju)庫;信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)查詢(xun)是(shi)指用(yong)戶(hu)(hu)(hu)以關(guan)鍵詞查找(zhao)信(xin)(xin)(xin)(xin)息(xi)(xi)(xi)(xi)時,搜索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)擎會根(gen)據(ju)用(yong)戶(hu)(hu)(hu)的查詢(xun)條件在索(suo)(suo)(suo)(suo)引(yin)(yin)(yin)(yin)庫中快速檢索(suo)(suo)(suo)(suo)文檔,然(ran)后對檢出(chu)的文檔與查詢(xun)條件的相關(guan)度進(jin)行評價,最后根(gen)據(ju)相關(guan)度對檢索(suo)(suo)(suo)(suo)結果(guo)進(jin)行排(pai)序并輸出(chu)。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)索引擎(qing)(qing)派出(chu)一(yi)個(ge)(ge)能夠(gou)在(zai)網(wang)(wang)上發(fa)(fa)現新網(wang)(wang)頁并抓文(wen)(wen)件的(de)程(cheng)序(xu)(xu),這(zhe)個(ge)(ge)程(cheng)序(xu)(xu)通常(chang)稱之(zhi)為(wei)蜘(zhi)蛛(zhu)(zhu)(Spider)。搜(sou)索引擎(qing)(qing)從已(yi)知的(de)數(shu)據庫出(chu)發(fa)(fa),就(jiu)像正(zheng)常(chang)用戶的(de)瀏覽器一(yi)樣訪問這(zhe)些(xie)網(wang)(wang)頁并抓取文(wen)(wen)件。搜(sou)索引擎(qing)(qing)通過這(zhe)些(xie)爬蟲去爬互聯(lian)網(wang)(wang)上的(de)外鏈(lian)(lian),從這(zhe)個(ge)(ge)網(wang)(wang)站(zhan)爬到另一(yi)個(ge)(ge)網(wang)(wang)站(zhan),去跟蹤(zong)(zong)網(wang)(wang)頁中的(de)鏈(lian)(lian)接,訪問更多的(de)網(wang)(wang)頁,這(zhe)個(ge)(ge)過程(cheng)就(jiu)叫爬行(xing)。這(zhe)些(xie)新的(de)網(wang)(wang)址會被存入(ru)數(shu)據庫等待(dai)搜(sou)索。所(suo)以(yi)跟蹤(zong)(zong)網(wang)(wang)頁鏈(lian)(lian)接是搜(sou)索引擎(qing)(qing)蜘(zhi)蛛(zhu)(zhu)(Spider)發(fa)(fa)現新網(wang)(wang)址的(de)最(zui)基(ji)本(ben)的(de)方法,所(suo)以(yi)反向(xiang)鏈(lian)(lian)接成為(wei)搜(sou)索引擎(qing)(qing)優化(hua)的(de)最(zui)基(ji)本(ben)因素之(zhi)一(yi)。搜(sou)索引擎(qing)(qing)抓取的(de)頁面文(wen)(wen)件與(yu)用戶瀏覽器得到的(de)完全(quan)一(yi)樣,抓取的(de)文(wen)(wen)件存入(ru)數(shu)據庫。
2、建立索引
蜘(zhi)蛛(zhu)抓取的(de)頁面文件分解、分析,并以巨大(da)表格(ge)的(de)形式存入數(shu)據(ju)庫,這個過(guo)程即是索引(index)。在索引數(shu)據(ju)庫中,網頁文字內容,關(guan)鍵詞出現的(de)位置(zhi)、字體(ti)(ti)、顏色(se)、加粗、斜體(ti)(ti)等(deng)相關(guan)信息都(dou)有相應記(ji)錄。
3、搜索詞處理
用戶(hu)在搜(sou)索引(yin)擎(qing)界面(mian)輸入關鍵詞(ci),單(dan)擊(ji)“搜(sou)索”按(an)鈕(niu)后,搜(sou)索引(yin)擎(qing)程序(xu)即對搜(sou)索詞(ci)進行處(chu)理(li)(li),如(ru)中文特有的分詞(ci)處(chu)理(li)(li),去除停(ting)止(zhi)詞(ci),判斷(duan)(duan)是否需要啟(qi)動(dong)整(zheng)合(he)搜(sou)索,判斷(duan)(duan)是否有拼寫(xie)錯(cuo)誤或錯(cuo)別字等情況(kuang)。搜(sou)索詞(ci)的處(chu)理(li)(li)必須十(shi)分快(kuai)速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人(ren)相比,這(zhe)就是為什么(me)網站要進行搜(sou)索(suo)引(yin)擎(qing)優化(hua)(SEO)。沒有SEO的幫助,搜(sou)索(suo)引(yin)擎(qing)常(chang)常(chang)并(bing)不能正確的返(fan)回最相關、最權威、最有用的信息。