
專注用戶體驗設(shè)計與開發(fā)
-
商務(wù)合作
- 郵箱:123456789@qq.com
- 手機:15323711532
- 座機:0755-84185494
- 地址:廣東省深圳市龍崗區(qū)布吉中興路21號基業(yè)大廈
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號
如何優(yōu)化搜索引擎,頁面分析原理一定要知道
當(dāng)用戶在使用搜索引擎進(jìn)行查詢的時候,使用的是一個詞或者短語,而到目前為止,搜索引擎僅能提供整個原始頁面,不能返回與用戶查詢條件相匹配的信息。因此,搜索引擎還需要對原始頁面進(jìn)行一系列的分析和處理,以迎合用戶信息查詢的習(xí)慣。
搜索引擎抓取首先對存儲的原始頁面建立索引,再過濾原始網(wǎng)頁的標(biāo)簽信息,從中提取網(wǎng)頁中的正文信息;然后,對正文信息進(jìn)行切詞,并建立關(guān)鍵字索引,得到頁面與關(guān)鍵字間的對應(yīng)關(guān)系;最后,對所有關(guān)鍵字進(jìn)行重組,從而建立關(guān)鍵字與頁面之間的對應(yīng)關(guān)系。?具體可查看徐三SEO博客(快速掌握百度搜索引擎抓取原理)相關(guān)信息。
網(wǎng)頁索引?為了提高頁面檢索的效率,搜索引擎需要對抓取回來的原始頁面建立索引,由于URL地址就是頁面的入口,為原始頁面建立索引實際上就是為頁面的URL建立索引,這樣就可以實現(xiàn)根據(jù)URL快速定位到對應(yīng)的頁面。?
網(wǎng)頁分析?網(wǎng)頁分析是整個網(wǎng)頁處理過程中最重要的環(huán)節(jié),包括網(wǎng)頁正文信息的提取(即標(biāo)簽信息過濾)、切詞、建立關(guān)鍵字索引列表及關(guān)鍵字重組這幾個重要的步驟。結(jié)果形成了一個關(guān)鍵字對應(yīng)多個原始頁面的關(guān)系,即形成了與用戶查詢習(xí)慣相符合的信息雛形。?
正文信息提取?網(wǎng)頁正文信息?的提取實際上就是對網(wǎng)頁中非正文信息的過濾。其中,最為重要的就是對網(wǎng)頁中標(biāo)簽信息的過濾。經(jīng)過標(biāo)簽過濾以后,搜索引擎就可以得到網(wǎng)頁的正文信息。
切詞/分詞經(jīng)過對原始頁面提取正文信息后,搜索引擎就可以得到頁面的實質(zhì)內(nèi)容。而為了得到用戶查詢相關(guān)的數(shù)據(jù),搜索引擎還需要對頁面中的內(nèi)容進(jìn)行切分,從而形成與用戶查詢條件性匹配的以關(guān)鍵字為單位的信息列表。
每個搜索引擎的切詞系統(tǒng)都會處在或多或少的差別,切詞系統(tǒng)的優(yōu)劣主要取決于開發(fā)者對語言的理解能力。特別是在中文語言環(huán)境里,切詞算法直接影響網(wǎng)頁內(nèi)容經(jīng)過切詞處理后會產(chǎn)生什么樣的關(guān)鍵字,這些關(guān)鍵字是否與用戶的搜索習(xí)慣一致。因而,切詞的結(jié)果直接決定搜索引擎能否提供與用戶查詢條件相匹配的信息。
在中文環(huán)境里,常見的分詞方法包括字符串匹配分詞及統(tǒng)計分詞兩種,下面簡單介紹一下這兩種中文分詞算法。
字符串匹配分詞是基于一個足夠大、足夠權(quán)威的“詞典”上進(jìn)行的。如果頁面上的詞與“詞典”中的詞匹配,則為命中。這樣就可以得到一個詞或者短語。
統(tǒng)計分詞是根據(jù)相鄰的兩個(或者多個)字出現(xiàn)的概率判斷這兩個(或者多個)字組合后是否會形成一個詞,例如,“微博”等著一些在傳統(tǒng)中文語言中不存在的詞匯。
關(guān)鍵字索引網(wǎng)頁正文信息在經(jīng)過切詞系統(tǒng)處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表中的每條記錄都包括了該關(guān)鍵字所在的關(guān)鍵字編號、網(wǎng)頁編號、關(guān)鍵字出現(xiàn)次數(shù)以及關(guān)鍵字在文檔中的位置等信息,
為了提高對關(guān)鍵字的檢索效率,搜索引擎還會為關(guān)鍵字列表建立索引。這樣,經(jīng)過對網(wǎng)頁及關(guān)鍵字列表都建立索引后,就可以實現(xiàn)從一個網(wǎng)頁快速定位到某一個關(guān)鍵字。例如,網(wǎng)頁0經(jīng)過信息過濾后得到的內(nèi)容是“中國廣東省深圳市”;然后,對內(nèi)容進(jìn)行切詞后產(chǎn)生關(guān)鍵字“中國”“廣東省”“深圳市”,并對關(guān)鍵字建立索引。
這樣根據(jù)網(wǎng)頁0,搜索引擎就可以快速定位到關(guān)鍵字“中國廣東省深圳市”,然而,用戶是通過那些關(guān)鍵字去尋找那些承載相應(yīng)信息的頁面的,所以,搜索引擎還需要對已有信息進(jìn)行相應(yīng)的處理,建立關(guān)鍵字與頁面URL間的對應(yīng)關(guān)系表,從而實現(xiàn)根據(jù)關(guān)鍵字快速定位到多個頁面的功能,這就是關(guān)鍵字重組。
關(guān)鍵字重組為了迎合用戶尋找信息的習(xí)慣,及關(guān)鍵字為條件尋找與關(guān)鍵字相關(guān)的頁面。因此,搜索引擎需要建立以關(guān)鍵字為主索引的一個關(guān)鍵字對應(yīng)多個頁面的關(guān)系表,即關(guān)鍵字反向索引表。而建立關(guān)鍵字反向索引表最重要的任務(wù)就是對所有頁面中的關(guān)鍵字列表進(jìn)行重組。
之前對關(guān)鍵字建立索引后,已經(jīng)產(chǎn)生了網(wǎng)頁與關(guān)鍵字的一對多的對應(yīng)關(guān)系。接下來,搜索引擎把所有頁面中的關(guān)鍵字進(jìn)行重組,并建立關(guān)鍵字引擎,從而形成一個特定的關(guān)鍵字就可以找到一個或者多個網(wǎng)頁,從而實現(xiàn)根據(jù)關(guān)鍵字返回相應(yīng)頁面的功能。
經(jīng)過對原始頁面進(jìn)行分析、處理后,搜索引擎已經(jīng)可以根據(jù)用戶的查詢條件返回相應(yīng)的頁面列表。但是,簡單地向用戶返回這個頁面列表,往往不能滿足用戶的需要,所以,搜索引擎還會根據(jù)頁面與用戶查詢條件相關(guān)性的高低再對這個列表進(jìn)行重新排列,然后把處理后的列表返回給用戶。
專注用戶體驗設(shè)計與開發(fā)
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號