Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號
SEO工具底層算法核心TF-IDF,主要策略是增加相關詞的覆蓋率,以及高效優化布局關鍵詞密度,從而在百度谷歌等搜索引擎內容質量這一項上的排名加分,獲取較高分值,下面予希來給大家講講TF-IDF算法。
“TF-IDF算法可以說是一種統計算法,用一個關鍵詞評估在一篇文章或一份文件中的重要程度,關鍵詞的重要性隨著關鍵詞出現頻率的增加而增加,同時也會隨著在語料庫中出現的頻率成反比下降,TF-IDF算法被各大搜索引擎平臺所引用,也是作為評估關鍵詞相關程度的的度量或評級依據。
大家是不是看了上面的似懂非懂呢?其實沒有一定SEO基礎知識的朋友是看不懂的,下面為了大家理解,舉例給大家說明。
例如有網民在搜索引擎上搜索““水果”這個名詞,搜索引擎給排名前五的網站有5個,以下5條內容你覺得哪條會排在第一名呢?
– 內容1: 水果有水果,水果,水果,水果,水果
– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
– 內容3: 蔬菜都很好吃,我最愛吃茄子了
– 內容4: 蘋果,梨子都是很好吃的水果
– 內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃
其實大家一看就知道了答案,第2條和第5條是非常有希望排在第一名或者第二名的,如果按照TF-IDF算法基本也是這個結果,那么TF-IDF算法是如何計算的呢?我們接著往下看。
先來統計各個關鍵詞語被包含的文章數,例如“水果”這個詞就被1、2、4、5文章所引用,第4條為“水果”的逆文檔頻率。
通過分詞后,各個關鍵詞語的逆文檔頻率是:
水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1
PS: IDF= log(語料庫中的文件總數 / 包含詞語的文件數目),為了便于理解,這里做了精簡。
一篇優質的文章把逆文檔頻率最高的前面的關鍵詞都包含了,說明這篇文章更有利于用戶意圖,搜索引擎也喜歡這樣的文章,我們再看看以上的例子,”水果”和“蘋果“是這個例子中最重要的2個詞語,如果這篇文章中包含有“水果、蘋果”,那么這篇內容質量度就會不錯的。
所以我們把包含“水果、蘋果”的內容拿出來,就是比較靠譜的內容了:
– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子
– 內容4: 蘋果,梨子都是很好吃的水果
– 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃;
把第1條和第3條內容刪掉,余下2、4、5這幾條內容,那么這幾條內容要如何排序呢?一個關鍵詞在內容中出現的頻率越高,說明這個關鍵詞對這篇文章就越重要,再次回到以上這個例子,“水果”是這篇文章的核心關鍵詞,由于第5條內容中“水果”出現頻率有兩次,第2、4條內容中出現的次數只有1次,所以第5條內容就排在了第一名,排序結果如下:
– 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)
– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)
– 內容4: 蘋果,梨子都是很好吃的水果(第三名)
-內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)
-內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )
以上就是給大家精簡后的TF-IDF算法,TF-IDF算法運行起來比這個要復雜的多,以上只是讓大家明白TF-IDF算法其本運行原理。
重要的事情說三遍!
由此我們可以看出TF-IDF算法不但衡量著關鍵詞對頁面的重要性,更能衡量文章的廣度相關性,對于各大搜索引擎來說,TF-IDF算法幫助搜索引擎屏幕了一大批依靠關鍵詞密度作弊來獲得排名的SEO小白,TF-IDF算法還提升了搜索質量,對于搜索引擎來說真是好處多多。
百度百科描述到:“除了TF-IDF以外,搜索引擎平臺還會引用基于鏈接分析的評級方法,確定文件在搜索引擎排序結果中出現的先后順序,通俗地講就是你的網站關鍵詞排名同由這個公式而決定的,文章得分=TF-IDF算法得分+鏈接得分,目前各大搜索引擎都在引用TF-IDF算法!
看到這里大家心中也許會有一個疑問,百度真的引用了TF-IDF算法嗎?下面接著往下看。
實證,大家可以在網上查看百度專利文檔《CN102737018A-基于非線性統一權值對檢索結果進行排序的方法及裝置-公開》,百度搜索算法更新升級非常快,但TF-IDF算法作為搜索引擎的核心算法之一始終是沒有變的。
全球搜索引擎google也在官方文檔中承認引用了TF-IDF算法
搜索引擎使用TF-IDF作為對網頁內容評判質量的標準,那么這個占比有多大呢?如今搜索引擎是按照這個方法進行計算頁面得分的:score(頁面得分) = TF-IDF分 * x + 鏈接分 * y + 用戶體驗分 * z(其中x+y+z=100%;);
2G左右谷歌搜索資料中,相關技術大咖做了相關預測,預測TF-IDF分值百度占比約為40%左右,谷歌TF-IDF分值占比約50%左右,通過做黑帽SEO的朋友介紹,TF-IDF分值的權重值百度約占有20%,谷歌目前還不清楚。
用戶體驗得分可以通過刷快排提高,百度占40%左右,Google無相關公示文檔。
所以說在國內做SEO:排名得分=40%內容質量(TFIDF)+40%用戶體驗分(快排)+20%的鏈接分(域名+外鏈),TFIDF重要程度就可想而知了。
大兵之前拿了幾個站做了下試驗,都使用了TF-IDF算法的基本公式,很多關鍵詞都沒有都上首頁,后來經過大咖的指點,網站使用了TF-IDF算法的升級版本BM25算法,主要是調整了文檔長度、關鍵詞權重等參數。
TF-IDF算法的升級版本BM25算法公式中的k參數排序得分基本也與谷歌搜索排序一致,而國內的百度搜索引擎由于人工干擾因素太多而無法驗證,不過通過相關實例驗證,K參數的取值也八九不離十。
確定好核心關鍵詞,再確定幾個長尾關鍵詞,再把網站標題確定好,然后再按照網站標題寫好描述內容,白帽SEO站長進行內容原創,黑帽SEO同學采集內容做拼湊…
利用摩天樓SEO內容助手從5個維度對你網站標題做評測,跟蹤不同相關的關鍵詞,幫你測試在同行業中你的網站得分,這些都對提升你網站排名是非常有作用的。
摩天樓SEO內容助手工具通過分析你網站后,會提示你要減少哪些關鍵詞和要增加哪些關鍵詞,然后你按照這些提示去做就行了,步驟過程雖然會有點枯燥無味,對已經成功了多個案例了。
SEO優化就是一個反復驗證的過程,如果你的網站將TOP50左右的相關關鍵詞都覆蓋了,那么你的網站內容基本上就可以算得上是全網TOP2了,然后再調整下詞頻,調整到TOP10,就可以稱得上是全網第一了。
在發表這篇文章的時候,TF-IDF算法測試已經超過一年了,然后再研究了百度、好搜、神馬的相關搜索算法專利,特別是百度,也正是通過百度搜索算法專利那里得知了TF-IDF算法。
后來通過百萬級數據的驗證,準備了100個自然搜索詞,驗證相關性算法預測排名與實際排名重合度(反面交叉驗證),數據基本符合預期。
后來驗證了摩天樓SEO內容助手工具確實對網站優化有效,而且相關案例也得到了驗證,通過搜索引擎結果交叉驗證也證明了摩天樓SEO工具不僅有效而且還很準。
目前國內SEO相關培訓的課程中都沒有涉術TF-IDF算法的深度解析,國外的技術大牛們則已經通過了多次實驗的驗證,我們都知道國內的搜索引擎一直在跟國外搜索引擎著google在學,如果TF-IDF算法應用在了谷歌上,那么百度應該也使用了TF-IDF算法。
國外SEO大神強推TF*IDF
摩天樓SEO內容助手工具目前來說還并不是一款完美的工具,但相對目前來說算是一款還不錯的SEO工具。
最后,予希建議同行們一定要沉下心來做內容,不要浮躁,踏實的走好每一步路,一步一個腳印,不要好高騖遠,想著一步登天。
Copyright ? 2015 深圳市鑫惠廣網絡科技有限公司 粵ICP備2023111395號