新站上線,最希望能夠盡快被搜索引擎收錄。只有收錄,才有后面的許許多多網(wǎng)站優(yōu)化。
一般來說,Baidu對(duì)于新站是來者不拒,有很多都是濫竽充數(shù),而Google相對(duì)較慢了,原因是Google對(duì)于新站都有一定的審核機(jī)制,防止一些新站利用黑帽網(wǎng)站優(yōu)化手段短時(shí)期內(nèi)即取得較好排名,這是一個(gè)最重要的可能原因。
當(dāng)然,我們并不希望搜索引擎收錄網(wǎng)站中的任何頁面。其中某些頁面——由于隱私、管理等等——并不希望被收錄。
當(dāng)搜索引擎來網(wǎng)站抓取頁面時(shí),它們會(huì)先查看該站的robots.txt文件,以了解你所允許它抓取的范圍,包括哪些文件,哪些目錄。
正確的配置網(wǎng)站的robots.txt非常重要,錯(cuò)誤的配置會(huì)導(dǎo)致搜索引擎不能很好的收錄甚至無法收錄,這種案例現(xiàn)在仍有發(fā)生,有的博客建立以后長(zhǎng)達(dá)幾個(gè)月沒有被收錄。
各個(gè)搜索引擎都有自己的搜索機(jī)器人(Robots)在為他們工作,這些Robots在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫(kù),正是得益于這些機(jī)器人的勤勞工作,才有如此海量的數(shù)據(jù)供我們檢索。
下面是一些搜索引擎的機(jī)器人名稱:
為了防止自己的網(wǎng)頁被搜索到,Robots開發(fā)界提出了兩個(gè)方法:一個(gè)是robots.txt,另一個(gè)是The Robots META標(biāo)簽。
Robot.txt 簡(jiǎn)單的說,Robot.txt就是一個(gè)純文本文檔,里面包含一些命令,當(dāng)Robots來網(wǎng)站時(shí),就會(huì)首先檢查該網(wǎng)站上是否有Robot.txt,若有,則一般會(huì)根據(jù)這些命令來執(zhí)行;若無,則會(huì)自動(dòng)抓取網(wǎng)頁或網(wǎng)站。Robots.txt 文件應(yīng)放于網(wǎng)站根目錄下,并且該文件是可以通過互聯(lián)網(wǎng)進(jìn)行訪問的。如Google的robot.txt:http://www.google.com/robots.txt
下面看一個(gè)具體的實(shí)例(#后面的內(nèi)容是為方便閱讀而設(shè)):
# robots.txt file start
# Exclude Files From All Robots:
User-agent: * Disallow: /security/ Disallow: /admin/ Disallow: /admin
# End robots.txt file
User-agent:用于描述搜索引擎蜘蛛的名字,在 Robots.txt 文件中,如果有多條User-agent記錄說明有多個(gè)搜索引擎蜘蛛會(huì)受到該協(xié)議的限制,對(duì)該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何搜索引擎蜘蛛均有效,在”Robots.txt 文件中,“User-agent:*”這樣的記錄只能有一條。
Disallow:就表示不允許蜘蛛訪問,你可以根據(jù)自己的需要設(shè)立后面的目錄或者是文件,比如管理員后臺(tái)登陸的頁面或者目錄等。
Disallow: /admin/:是指允許搜索引擎蜘蛛抓取/admin.html,而不能抓取/admin/index.html。
Disallow: /admin:是指/admin.html 和/admin/index.html都不允許搜索引擎蜘蛛抓取。
下面有四個(gè)舉例: 例一:通過”/robots.txt”禁止所有搜索引擎蜘蛛抓取”/bin/cgi/”目錄,以及 “/tmp/”目錄和 /foo.html 文件,設(shè)置方法如下: User-agent: * Disallow: /bin/cgi/ Disallow: /tmp/ Disallow: /foo.html
例二:通過”/robots.txt”只允許某個(gè)搜索引擎抓取,而禁止其他的搜索引擎抓取。 如:只允許名為”slurp”的搜索引擎蜘蛛抓取,而拒絕其他的搜索引擎蜘蛛抓取 “/cgi/” 目錄下的內(nèi)容,設(shè)置方法如下: User-agent: * Disallow: /cgi/
User-agent: slurp Disallow:
例三:禁止任何搜索引擎抓取我的網(wǎng)站,設(shè)置方法如下: User-agent: * Disallow: /
例四:只禁止某個(gè)搜索引擎抓取我的網(wǎng)站 如:只禁止名為“slurp”的搜索引擎蜘蛛抓取,設(shè)置方法如下: User-agent: slurp Disallow: /
Robots Meta標(biāo)簽 robot.txt主要是針對(duì)整個(gè)網(wǎng)站而言,相比之下,Robots Meta標(biāo)簽則是針對(duì)某個(gè)具體的網(wǎng)頁不希望被搜索到。
需要注意的是:上述的robots.txt和Robots META標(biāo)簽限制搜索引擎機(jī)器人(Robots)抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則,需要搜索引擎機(jī)器人的配合才行,并不是每個(gè)Robots都遵守的,這方面百度似乎做得不是很好。 |