前幾天寫了robots.txt的規(guī)則誤區(qū)并介紹百度和Google的robots工具的使用,介紹了幾個robots.txt文件的規(guī)則的誤區(qū),然后發(fā)現(xiàn)其實(shí)不止那些,還有很多大家沒有注意的誤區(qū)。
今天重新列舉一下常見的robots.txt實(shí)際使用中的誤區(qū):
誤區(qū)1.Allow包含的范圍超過Disallow,并且位置在Disallow前面。
比如有很多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
想讓所有蜘蛛抓取本站除/mulu/下面的url之外的所有頁面,禁止抓取/mulu/下面的所有url。
搜索引擎蜘蛛執(zhí)行的規(guī)則是從上到下,這樣會造成第二句命令失效。也就是說禁止抓取/mulu/目錄這條規(guī)則是無效的。正確的是Disallow應(yīng)該在Allow之上,這樣才會生效。
誤區(qū)2.Disallow命令和Allow命令之后沒有以斜杠”/”開頭。
這個也很容易被忽視,比如有人這樣寫Disallow: 123.html ,這種是沒有效果的。斜杠”/”表示的是文件對于根目錄的位置,如果不帶的話,自然無法判斷url是哪個,所以是錯誤的。
正確的應(yīng)該是Disallow: /123.html,這樣才能屏蔽/123.html這個文件,這條規(guī)則才能生效。
誤區(qū)3.屏蔽的目錄后沒有帶斜杠”/”。
也就是比如想屏蔽抓取/mulu/這個目錄,有些人這樣寫Disallow: /mulu。那么這樣是否正確呢?
首先這樣寫(Disallow: /mulu)確實(shí)可以屏蔽/mulu/下面的所有url,不過同時也屏蔽了類似/mulu123.html這種開頭為/mulu的所有頁面,效果等同于Disallow: /mulu*。
正確的做法是,如果只想屏蔽目錄,那么必須在結(jié)尾帶上斜杠”/”。
轉(zhuǎn)載請注明來自逍遙博客,本文地址:http://liboseo.com/1193.html
轉(zhuǎn)載請注明出處和鏈接!