Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號
搜索引擎原理很多人都只知其一,不知其二,隨著互聯網時代的發展,越來越多的算法被公開,也有越來越多的人對搜索引擎算法感到好奇,今天迅步總結的這篇文章用最簡單直白的語言來解釋搜索引擎的原理。本章內容分為抓取建庫、檢索排序、外部投票以及結果展現。
檢索排序
檢索
我們都知道站在用戶的角度,我們使用搜索引擎是一個query的過程,用戶在搜索不同的詞匯的時候,搜索引擎會給我們不同的展現結果,比如我們搜索“運營是什么”,百度會把一些跟主題最相關的答部分展現給用戶,而搜索“運營是什么行業”的時候,百度會變更搜索結果,把另外一些相關的答案展示給用戶,而這個檢索的流程是如何實現的呢?這就不得不提到檢索。
用戶在輸入詞匯的時候,算法會進行分詞處理,然后查出每個term文檔集合,然后求交集,然后通過協同過濾以及其他過濾手法最終形成了排序,我們拿上面的運營是什么來舉例,分詞后會變成:
運營——0x123sdsd
是——0x1237887
什么——0x565768
而算法查出每個文檔集合(頁面集合),有可能是這樣
0x123sdsd 1 3 4 5
0x1237887 3 5 12
0x565768 9 7 6
上述求交集后,發現文檔3、5是我們可能需要找的。如果用一個更簡單的例子,我們可以這樣描述:比如用戶搜索運營是什么行業的query后,百度分詞結果是:
運營 A,B,C,
是 D,E
什么 G,H
行業 H, C
我們可以看出,用戶搜索“運營是什么行業”,頁面C是我們想要找的結果,在實際應用過程中,百度算法會丟棄比如啊、什么、哦等這類的詞語,也就是說,我們的頁面越多的包含分詞后的詞,那么被檢索出來的幾率就越大,這也就是行業所稱的“關鍵詞密度”。
排序
既然檢索有了結果,那哪些因素會影響到排序呢?
1、相關性
相關性是影響排序的重要因素,占據了70%以上,網頁內容和用戶檢索需求的匹配程度,相關性主要體現在需求匹配、關鍵詞個數以及關鍵詞出現的位置和外部鏈接指向該頁面所用的錨文本。
翻譯過來就是,比如我們的內容中,出現跟運營、行業高度相關的詞庫,并且多次出現在H1等位置,外部一個鏈接使用錨文本指向該頁面,那么該頁面大概率是跟該主題高度相關的。
2、權威性
用戶都喜歡權威性的站點,算法也相信權威站點的內容,而權威性代表了 這個網站的資質,也就是我們經常提到的備案、百度保障、百度信譽、百度認證等。
3、時效性
時效性內容也就是代表出現了新的頁面,而新頁面承載新鮮的內容,按時間排序我們的內容就可以排到前面。
4、重要性
網頁內容與用戶需求匹配重要程度或受歡迎程度,這句話理解過來就是,用戶在進行query的時候,我們的內容不僅跟主題相關,內容還是要能吸引用戶和被用戶所重視的。
5、豐富度
豐富度看似簡單,確實范圍很廣,簡單的理解是你可以生產一篇內容滿足用戶單一需求,但還可以滿足用戶的延展需求,什么意思呢?我們可以拿上面的“運營是什么行業”舉個例子,用戶搜索運營是什么行業的時候,用戶的一般需求是想了解運營具體什么行業,是否可以入行,更深層的需求是想了解一下運營這個行業的薪資待遇,是否有發展前景,如果我們把用戶的多種需求都在一篇文章中完善了,文章的豐富度就出來了。
總結一下檢索排序的流程:用戶在進行query的時候,算法會對問題進行切詞處理,讓包含此主題的所有頁面進行結果展現,但由于一些頁面內容跟主題高度相關、內容且很豐富,觀點新穎讓用戶喜歡,這樣的文章就會被算法排在前面。
Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號