前段時刻寫了篇robots.txt文件怎么寫,可是經由過程現實不雅察看,有些伴侶對于robots.txt文件的軌則仍是有必然的誤區。
好比有良多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
不知道巨匠有沒有看出來,這個軌則其實是不起浸染的,第一句Allow: / 指的是許可蜘蛛爬行所有內容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有內容。
概況上看這個軌則想達到的目的是:許可蜘蛛爬行除了/mulu/之外的網站所有頁面。
可是搜索引擎蜘蛛執行的軌則是年夜上到下,這樣會造成第二句呼吁失蹤效。
正確的軌則應該是:
User-agent: *
Disallow: /mulu/
Allow: /
也就是先執行禁止呼吁,再執行許可呼吁,這樣就不會失蹤效了。
此外對于百度蜘蛛來說,還有一個輕易犯的錯誤,那就是Disallow呼吁和Allow呼吁之后要儀筧?/開首,所以有些人這樣寫:Disallow: *.html 這樣對百度蜘蛛來說是錯誤的,應該寫成:Disallow: /*.html 。
有時辰我們寫這些軌則可能會有一些沒有注重到的問題,此刻可以經由過程百度站長工具(zhanzhang.baidu.com)和Google站長工具來測試。
相對來說百度站長工具robots工具相對簡陋一些:



百度Robots工具只能檢測每一行呼吁是否合適語犯罪則,可是不檢測現實效不美觀和抓取邏輯軌則。
相對來說Google的Robots工具好用良多,如圖:

在谷歌站長工具里的名稱是抓取工具的權限,并陳述Google抓取網站頁面的時辰被阻擋了若干好多個網址。

還可以在線測試Robots改削后的效不美觀,當然這里的改削只是測試用,如不美觀沒有問題了,可以生成robots.txt文件,或者把呼吁代碼復制到robots.txt文本文檔中,上傳到網站根目錄。

Google的測試跟百度有很年夜的區別,它可以讓你輸入某一個或者某些網址,測試Google蜘蛛是否抓取這些網址。

測試結不美觀是這些網址被Google蜘蛛抓取的情形,這個測試對于Robots文件對某些特定url的軌則是否有用。
而兩個工具連系起來當然更好了,這下應該徹底年夜白robots應該怎么寫了吧。
轉載請注明來自逍遙博客,本文地址:http://liboseo.com/1170.html
除非注明,逍遙博客文章均為原創,轉載請注明出處和鏈接!