关于网站搜索中 robots.txt 的感悟

SearchEngineWatch 今天是我微软 Microsoft SharePoint MOSS 2007 培训第三天,主题里有怎样设置MOSS中的Enterprise Search 功能。从企业内部的Search,我们的培训导师就开始谈到了SEO的主题,同时也大侃了一番怎样不被Google等搜索引擎机器人爬行到的问题。自己没有当场做太多笔记,就在晚上先写到博客里备查吧。

当然首先他就讲怎样能使网站在搜索排行中靠前。以前的META代码标签,或关键词已不太起多作用了。目前主要是看相关性的关键词是否会重复出现在网页的前200个单词和内外部链接里。这方面的情况虽说不是太新的东西,不过也提醒了我应该密切关注SEO的近况毕竟现在Search Engine的算法也会老更新的。这里,他推荐了一个网站 http://searchenginewatch.com/ 给大家分享。

接下来他就从在 SharePoint 给 site collection 设置 not searchable 来阻止被搜索谈到了怎么不让 Google 等搜索引擎来爬行自己的网站。

首先要知道搜索引擎是怎样爬行、索引网站的。其实这些机器人主要是通过链接来从一个网页跳到另一个,若不想它们爬行,一般可以在网页的META里嵌入 index=nofollow,或者在链接中填上 nofollow。如果想总体上来控制,就是要善用一个叫 robots.txt 的文本文件了。这个文本文件也不是什么神秘东西,它一般会被放置在网站的根目录里,然后将那些不想被索引的子目录列出来以让搜索机器人了解。想看看它长什么样,在你的浏览器里打开http://www.hp.com/robots.txt,你就会看到如下的一些信息:

#$Header: robots.txt,v 1.12 2007/04/18 16:30:08 etam Exp $ $Locker:  $

# robots.txt file for www.hp.com
# send e-mail to HP.comOperations@hp.com for updates or problems

User-agent:	HPSpider
Disallow:	/go/
Disallow:	/info/
Disallow:	/support/
Disallow:	/JumpData/

User-agent:	*
Disallow:	/cgi-bin/
Disallow:	/go/
Disallow:	/info/
Disallow:	/support/
Disallow:	/JumpData/
Disallow:	/hpweb/
Disallow:	/cposupport/
Sitemap: 	http://www.hp.com/google-sitemap-index.xml

从上你可以看出,HP公司告诉他们内部的搜索机器人不要搜索 /go/、/info/、 /support/ 和 /JumpData/ 目录,然后叫其他的搜索机器人不要索/cgi-bin/、 /go/、/info/、/support/、/JumpData/、/hpweb/和 /cposupport/ 等目录。

是不是很简单?你现在就可以马上动手给你自己的网站做一个robots.txt文件了。

知道了 robots.txt 是管什么用的了,想不想看一些好玩的地方。在打开你的浏览器,然后键入 http://www.whitehouse.gov/robots.txt 你会看到什么?是不是很惊讶,怎么是要保护这么多的目录。

为了安全?说不过去,既然你要放在因特网上,当然就是一些不很机密的东西也是,而且你从那些子目录的名字上也能判断出他们也不是一些秘密。

这只能体现一个现象,那就是美国政府部门应该给民众公开文档信息的,其中包括在Internet上。按规定如果你是一个公众机构 government entity,你是有义务给纳税人提供他们所需的公开资料。好像以前有过某政府机构因没有在Internet上放置此类的资料而有被民众起诉的案例。

好了,既然按规定说是要放置,那就放好了。但规定里并没有说一定要便于搜索,那我就没有义务提供被搜索的义务了。反正你知道你需要什么文档,问我要,我肯定给你,若你不知道想要什么,对不起了,没有让你全面查索的义务了。

懂了吧!

3 Responses to “关于网站搜索中 robots.txt 的感悟”

  1. Stephan Jadoo

    Thanks for the auspicious writeup. It in truth used to be a enjoyment account it. Glance complicated to more introduced agreeable from you! However, how can we be in contact?

    [Reply]

Leave a Reply

Your email address will not be published. Required fields are marked *