
專注用戶體驗(yàn)設(shè)計(jì)與開發(fā)
-
商務(wù)合作
- 郵箱:123456789@qq.com
- 手機(jī):15323711532
- 座機(jī):0755-84185494
- 地址:廣東省深圳市龍崗區(qū)布吉中興路21號基業(yè)大廈
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號
有時(shí)候不希望搜索引擎抓取某些內(nèi)容可以寫robots.txt文件放到根目錄,按理蜘蛛會首先讀取這個(gè)文件,按照robots協(xié)議抓取相應(yīng)的內(nèi)容。但是許多站長們發(fā)現(xiàn),蜘蛛并不太遵守這個(gè)協(xié)議。
為驗(yàn)證這個(gè)問題,做了測試后發(fā)現(xiàn),如果蜘蛛已經(jīng)抓取并有索引、快照了,這個(gè)時(shí)候再寫robots.txt文件就不遵守這個(gè)協(xié)議了,一般在robots中禁止抓取文件夾如下,
Disallow:/about/還不放心,在頁面里增加<meta>聲明
<meta content="noindex,follow" />這個(gè)聲明的意思是告訴蜘蛛不建立索引,可以沿著路徑繼續(xù)抓取內(nèi)容。以為這就能讓已經(jīng)收錄的快照刪除了,有網(wǎng)友說這需要等待,時(shí)間都說不好。
百度有個(gè)規(guī)則是判斷頁面質(zhì)量,如果多個(gè)頁面重復(fù)內(nèi)容過多,會被降權(quán),甚至移出索引庫。等待很長世間才會被移出索引庫,一般調(diào)整過的網(wǎng)站的收錄量會減少,但不是大幅度減少,是因?yàn)橛行├撁嬖谒惴ǜ潞蟊灰瞥鏊饕龓於眩@對于正規(guī)SEO做法的站長來說是好事,垃圾頁面會影響到網(wǎng)站的排名。
robots和nofollow標(biāo)簽都能控制蜘蛛抓取范圍,而兩個(gè)的用法不盡相同。
簡單說,nofollow主要是為了集中某個(gè)頁面的權(quán)重,而robots.txt文件是控制整個(gè)網(wǎng)站的蜘蛛抓取范圍。那么問題來了,為什么很多時(shí)候蜘蛛不遵守我們的robots協(xié)議呢?(一些垃圾蜘蛛是完全不遵守robots協(xié)議的)我們說的蜘蛛主要指百度蜘蛛與谷歌蜘蛛。
1、書寫錯(cuò)誤
robots.txt文件的書寫格式是一行一行的寫,不能連著寫,如
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/2、正確書寫
每個(gè)記錄都需要另起一行,每個(gè)記錄里不允許空行,空行用來分割不同的記錄。如;
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/很多時(shí)候搜索引擎抓取了你 robots.txt 文件不允許抓取的內(nèi)容不是因?yàn)闄C(jī)器人不遵守,而是從抓取到索引到展現(xiàn)這個(gè)過程需要一段時(shí)間,當(dāng)搜索引擎已經(jīng)抓取了,你才更新,那么之前抓取的是不會那么快刪掉的,刪除周期并不規(guī)律,一般是算法更新后生效的情況多些。
專注用戶體驗(yàn)設(shè)計(jì)與開發(fā)
Copyright ? 2015 深圳市鑫惠廣網(wǎng)絡(luò)科技有限公司 粵ICP備2023111395號