谷歌正式宣布:GoogleBot【谷歌蜘蛛】將不再遵守Robots.txt的索引指令。依賴robots.txt noindex指令的出版商必須在2019年9月1日前刪除該指令,并開始使用替代指令。
原因:
Robots.txt Noindex為非官方指令。
谷歌過去曾支持過這個robots.txt指令,但以后不再支持了。
官網(wǎng)公告
在開源解析器庫時,我們分析了robots.txt規(guī)則的用法。我們特別關(guān)注internet草案不支持的規(guī)則,比如爬行延遲、nofollow和noindex。由于這些規(guī)則從來沒有被谷歌記錄下來,自然,它們在Googlebot中的使用非常少。進(jìn)一步挖掘,我們發(fā)現(xiàn)除了0.001%的互聯(lián)網(wǎng)robots.txt文件之外,它們的使用都與其他規(guī)則相矛盾。這些錯誤損害了網(wǎng)站在谷歌搜索結(jié)果中的存在,我們認(rèn)為這不是網(wǎng)站管理員的本意。
為了維護(hù)一個健康的生態(tài)系統(tǒng),并為未來可能的開源版本做準(zhǔn)備,我們將在2019年9月1日停用所有處理不受支持和未發(fā)布規(guī)則(如noindex)的代碼。對于那些依賴robots.txt文件中的noindex索引指令(控制爬行)的人來說,有一些替代選項可供選擇。
谷歌官方微博發(fā)布的控制搜索引擎蜘蛛的五種方法
1、機(jī)器人元標(biāo)記中的Noindex:
在HTTP響應(yīng)標(biāo)頭和HTML中都支持,noindex指令是在允許爬網(wǎng)時從索引中刪除URL的最有效方法。
2、404和410 HTTP狀態(tài)代碼:
兩個狀態(tài)代碼都表示該頁面不存在,一旦抓取和處理這些url,就會從谷歌的索引中刪除它們。
3、 密碼保護(hù):
除非使用標(biāo)記來表示訂閱或支付內(nèi)容,否則在登錄后隱藏頁面通常會將其從谷歌的索引中刪除。
4、禁止在robots.txt中:
搜索引擎只能索引他們知道的網(wǎng)頁,因此阻止網(wǎng)頁被抓取通常意味著其內(nèi)容不會被編入索引。雖然搜索引擎也可以基于來自其他頁面的鏈接索引URL,而不會看到內(nèi)容本身,但我們的目標(biāo)是在未來減少此類頁面的可見性。
5、搜索控制臺刪除網(wǎng)址工具:
該工具是一種從Google搜索結(jié)果中臨時刪除網(wǎng)址的快捷方法。