一、什么是搜索引擎
搜索引擎是指(zhi)根據一定的(de)策略、運(yun)用(yong)(yong)特定的(de)計(ji)算機(ji)程序從互聯網上采集(ji)信(xin)息(xi),在對信(xin)息(xi)進行組(zu)織和處(chu)理(li)后,為用(yong)(yong)戶提(ti)供檢(jian)索(suo)(suo)服務,將(jiang)檢(jian)索(suo)(suo)的(de)相(xiang)關信(xin)息(xi)展示(shi)給用(yong)(yong)戶的(de)系統。搜索(suo)(suo)引(yin)(yin)擎(qing)是工作于互聯網上的(de)一門(men)檢(jian)索(suo)(suo)技術,它指(zhi)在提(ti)高人們(men)獲取搜集(ji)信(xin)息(xi)的(de)速度(du),為人們(men)提(ti)供更(geng)好(hao)的(de)網絡(luo)使用(yong)(yong)環境(jing)。從功能和原理(li)上搜索(suo)(suo)引(yin)(yin)擎(qing)大致(zhi)被(bei)分(fen)為全文搜索(suo)(suo)引(yin)(yin)擎(qing)、元搜索(suo)(suo)引(yin)(yin)擎(qing)、垂直搜索(suo)(suo)引(yin)(yin)擎(qing)和目錄(lu)搜索(suo)(suo)引(yin)(yin)擎(qing)等四大類。
二、搜索引擎的工作原理
搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)的(de)(de)(de)(de)工(gong)作原理是(shi)從互(hu)聯網(wang)上(shang)抓取網(wang)頁,建(jian)立索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據(ju)庫,在(zai)索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據(ju)庫中(zhong)搜索(suo)(suo)(suo)排序。它的(de)(de)(de)(de)整個(ge)工(gong)作過(guo)(guo)程大體分(fen)為信(xin)息采(cai)(cai)(cai)集(ji)、信(xin)息分(fen)析(xi)(xi)、信(xin)息查(cha)(cha)(cha)詢(xun)(xun)和(he)用戶接口四部分(fen)。信(xin)息采(cai)(cai)(cai)集(ji)是(shi)網(wang)絡機器人掃描(miao)一定IP地址范圍(wei)內的(de)(de)(de)(de)網(wang)站,通過(guo)(guo)鏈(lian)接遍歷Web空間(jian),來進行(xing)采(cai)(cai)(cai)集(ji)網(wang)頁資料,為保證采(cai)(cai)(cai)集(ji)的(de)(de)(de)(de)資料最(zui)新,網(wang)絡機器人還會(hui)回訪已(yi)抓取過(guo)(guo)的(de)(de)(de)(de)網(wang)頁;信(xin)息分(fen)析(xi)(xi)是(shi)通過(guo)(guo)分(fen)析(xi)(xi)程序,從采(cai)(cai)(cai)集(ji)的(de)(de)(de)(de)信(xin)息中(zhong)提(ti)取索(suo)(suo)(suo)引(yin)(yin)(yin)項(xiang),用索(suo)(suo)(suo)引(yin)(yin)(yin)項(xiang)表示(shi)文(wen)檔(dang)并生成文(wen)檔(dang)庫的(de)(de)(de)(de)索(suo)(suo)(suo)引(yin)(yin)(yin)表,從而建(jian)立索(suo)(suo)(suo)引(yin)(yin)(yin)數(shu)據(ju)庫;信(xin)息查(cha)(cha)(cha)詢(xun)(xun)是(shi)指用戶以(yi)關(guan)(guan)鍵詞查(cha)(cha)(cha)找信(xin)息時(shi),搜索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)會(hui)根(gen)據(ju)用戶的(de)(de)(de)(de)查(cha)(cha)(cha)詢(xun)(xun)條(tiao)件(jian)在(zai)索(suo)(suo)(suo)引(yin)(yin)(yin)庫中(zhong)快速檢索(suo)(suo)(suo)文(wen)檔(dang),然(ran)后對檢出(chu)的(de)(de)(de)(de)文(wen)檔(dang)與查(cha)(cha)(cha)詢(xun)(xun)條(tiao)件(jian)的(de)(de)(de)(de)相(xiang)關(guan)(guan)度(du)進行(xing)評價(jia),最(zui)后根(gen)據(ju)相(xiang)關(guan)(guan)度(du)對檢索(suo)(suo)(suo)結果進行(xing)排序并輸出(chu)。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)派(pai)出一個(ge)能夠在(zai)網(wang)(wang)上(shang)發(fa)現新(xin)網(wang)(wang)頁(ye)(ye)并(bing)抓(zhua)文件(jian)的(de)(de)程序,這(zhe)(zhe)個(ge)程序通(tong)常稱之(zhi)為蜘蛛(zhu)(Spider)。搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)從已知(zhi)的(de)(de)數據(ju)(ju)庫出發(fa),就(jiu)像正常用戶的(de)(de)瀏(liu)覽器一樣訪問這(zhe)(zhe)些(xie)網(wang)(wang)頁(ye)(ye)并(bing)抓(zhua)取文件(jian)。搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)通(tong)過(guo)這(zhe)(zhe)些(xie)爬(pa)蟲去爬(pa)互聯網(wang)(wang)上(shang)的(de)(de)外鏈(lian)(lian),從這(zhe)(zhe)個(ge)網(wang)(wang)站爬(pa)到(dao)另一個(ge)網(wang)(wang)站,去跟(gen)(gen)蹤(zong)網(wang)(wang)頁(ye)(ye)中的(de)(de)鏈(lian)(lian)接,訪問更多(duo)的(de)(de)網(wang)(wang)頁(ye)(ye),這(zhe)(zhe)個(ge)過(guo)程就(jiu)叫爬(pa)行(xing)。這(zhe)(zhe)些(xie)新(xin)的(de)(de)網(wang)(wang)址會被存入(ru)數據(ju)(ju)庫等待搜(sou)(sou)索(suo)(suo)。所以跟(gen)(gen)蹤(zong)網(wang)(wang)頁(ye)(ye)鏈(lian)(lian)接是搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)蜘蛛(zhu)(Spider)發(fa)現新(xin)網(wang)(wang)址的(de)(de)最基本的(de)(de)方法(fa),所以反向鏈(lian)(lian)接成為搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)優化的(de)(de)最基本因素之(zhi)一。搜(sou)(sou)索(suo)(suo)引(yin)擎(qing)抓(zhua)取的(de)(de)頁(ye)(ye)面文件(jian)與用戶瀏(liu)覽器得(de)到(dao)的(de)(de)完(wan)全一樣,抓(zhua)取的(de)(de)文件(jian)存入(ru)數據(ju)(ju)庫。
2、建立索引
蜘(zhi)蛛抓(zhua)取的頁面文件(jian)分(fen)解、分(fen)析(xi),并(bing)以巨(ju)大表格的形式存入(ru)數據庫,這個過程即(ji)是索引(yin)(index)。在索引(yin)數據庫中,網頁文字內(nei)容,關(guan)鍵詞(ci)出現(xian)的位置、字體(ti)、顏色(se)、加粗、斜體(ti)等相關(guan)信息都有相應記錄。
3、搜索詞處理
用戶在(zai)搜索(suo)引擎界面輸入關(guan)鍵詞,單擊“搜索(suo)”按(an)鈕后,搜索(suo)引擎程序即(ji)對搜索(suo)詞進行處(chu)理,如中文(wen)特有的分詞處(chu)理,去(qu)除(chu)停止詞,判斷是(shi)否需要啟動整合(he)搜索(suo),判斷是(shi)否有拼寫錯誤或錯別字等(deng)情況。搜索(suo)詞的處(chu)理必須(xu)十分快速(su)。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法(fa)與人相比(bi),這就是(shi)為什么(me)網(wang)站要進(jin)行搜索引擎(qing)優化(SEO)。沒有(you)(you)SEO的(de)幫助,搜索引擎(qing)常常并(bing)不能正(zheng)確的(de)返回(hui)最相關、最權威、最有(you)(you)用的(de)信(xin)息。