前幾天寫了robots.txt的規(guī)則誤區(qū)并介紹百度和Google的robots工具的使用,介紹了幾個(gè)robots.txt文件的規(guī)則的誤區(qū),然后發(fā)現(xiàn)其實(shí)不止那些,還有很多大家沒(méi)有注意的誤區(qū)。
今天重新列舉一下常見的robots.txt實(shí)際使用中的誤區(qū):
誤區(qū)1.Allow包含的范圍超過(guò)Disallow,并且位置在Disallow前面。
比如有很多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
想讓所有蜘蛛抓取本站除/mulu/下面的url之外的所有頁(yè)面,禁止抓取/mulu/下面的所有url。
搜索引擎蜘蛛執(zhí)行的規(guī)則是從上到下,這樣會(huì)造成第二句命令失效。也就是說(shuō)禁止抓取/mulu/目錄這條規(guī)則是無(wú)效的。正確的是Disallow應(yīng)該在Allow之上,這樣才會(huì)生效。
誤區(qū)2.Disallow命令和Allow命令之后沒(méi)有以斜杠”/”開頭。
這個(gè)也很容易被忽視,比如有人這樣寫Disallow: 123.html ,這種是沒(méi)有效果的。斜杠”/”表示的是文件對(duì)于根目錄的位置,如果不帶的話,自然無(wú)法判斷url是哪個(gè),所以是錯(cuò)誤的。
正確的應(yīng)該是Disallow: /123.html,這樣才能屏蔽/123.html這個(gè)文件,這條規(guī)則才能生效。
誤區(qū)3.屏蔽的目錄后沒(méi)有帶斜杠”/”。
也就是比如想屏蔽抓取/mulu/這個(gè)目錄,有些人這樣寫Disallow: /mulu。那么這樣是否正確呢?
首先這樣寫(Disallow: /mulu)確實(shí)可以屏蔽/mulu/下面的所有url,不過(guò)同時(shí)也屏蔽了類似/mulu123.html這種開頭為/mulu的所有頁(yè)面,效果等同于Disallow: /mulu*。
正確的做法是,如果只想屏蔽目錄,那么必須在結(jié)尾帶上斜杠”/”。
轉(zhuǎn)載請(qǐng)注明來(lái)自逍遙博客,本文地址:http://liboseo.com/1193.html
轉(zhuǎn)載請(qǐng)注明出處和鏈接!