2007年12月6日 11:22 pm

关于网站搜索中 robots.txt 的感悟

SearchEngineWatch 今天是我微软 Microsoft SharePoint MOSS 2007 培训第三天,主题里有怎样设置MOSS中的Enterprise Search 功能。从企业内部的Search,我们的培训导师就开始谈到了SEO的主题,同时也大侃了一番怎样不被Google等搜索引擎机器人爬行到的问题。自己没有当场做太多笔记,就在晚上先写到博客里备查吧。

当然首先他就讲怎样能使网站在搜索排行中靠前。以前的META代码标签,或关键词已不太起多作用了。目前主要是看相关性的关键词是否会重复出现在网页的前200个单词和内外部链接里。这方面的情况虽说不是太新的东西,不过也提醒了我应该密切关注SEO的近况毕竟现在Search Engine的算法也会老更新的。这里,他推荐了一个网站 http://searchenginewatch.com/ 给大家分享。

接下来他就从在 SharePoint 给 site collection 设置 not searchable 来阻止被搜索谈到了怎么不让 Google 等搜索引擎来爬行自己的网站。

首先要知道搜索引擎是怎样爬行、索引网站的。其实这些机器人主要是通过链接来从一个网页跳到另一个,若不想它们爬行,一般可以在网页的META里嵌入 index=nofollow,或者在链接中填上 nofollow。如果想总体上来控制,就是要善用一个叫 robots.txt 的文本文件了。这个文本文件也不是什么神秘东西,它一般会被放置在网站的根目录里,然后将那些不想被索引的子目录列出来以让搜索机器人了解。想看看它长什么样,在你的浏览器里打开http://www.hp.com/robots.txt,你就会看到如下的一些信息:

#$Header: robots.txt,v 1.12 2007/04/18 16:30:08 etam Exp $ $Locker:  $

# robots.txt file for www.hp.com
# send e-mail to HP.comOperations@hp.com for updates or problems

User-agent:	HPSpider
Disallow:	/go/
Disallow:	/info/
Disallow:	/support/
Disallow:	/JumpData/

User-agent:	*
Disallow:	/cgi-bin/
Disallow:	/go/
Disallow:	/info/
Disallow:	/support/
Disallow:	/JumpData/
Disallow:	/hpweb/
Disallow:	/cposupport/
Sitemap: 	http://www.hp.com/google-sitemap-index.xml

从上你可以看出,HP公司告诉他们内部的搜索机器人不要搜索 /go/、/info/、 /support/ 和 /JumpData/ 目录,然后叫其他的搜索机器人不要索/cgi-bin/、 /go/、/info/、/support/、/JumpData/、/hpweb/和 /cposupport/ 等目录。

是不是很简单?你现在就可以马上动手给你自己的网站做一个robots.txt文件了。

知道了 robots.txt 是管什么用的了,想不想看一些好玩的地方。在打开你的浏览器,然后键入 http://www.whitehouse.gov/robots.txt 你会看到什么?是不是很惊讶,怎么是要保护这么多的目录。

为了安全?说不过去,既然你要放在因特网上,当然就是一些不很机密的东西也是,而且你从那些子目录的名字上也能判断出他们也不是一些秘密。

这只能体现一个现象,那就是美国政府部门应该给民众公开文档信息的,其中包括在Internet上。按规定如果你是一个公众机构 government entity,你是有义务给纳税人提供他们所需的公开资料。好像以前有过某政府机构因没有在Internet上放置此类的资料而有被民众起诉的案例。

好了,既然按规定说是要放置,那就放好了。但规定里并没有说一定要便于搜索,那我就没有义务提供被搜索的义务了。反正你知道你需要什么文档,问我要,我肯定给你,若你不知道想要什么,对不起了,没有让你全面查索的义务了。

懂了吧!

标签关键词: , ,
相关网络话题:

相关文章

文章导航

【前一篇】: Firefox 3.0 beta 测试第一版 »
【后一篇】: 央视主持张斌外遇曝光 妻子大闹新闻发布会(图/视频) »

尚无评论

Trackback URI | Comments RSS

阅读完毕,有话要说?请多指教:

    • 赞助链接

    • 最新评论

    • 网站功能

    • 免责声明

      Blog Logo欢迎光临超凡工作室的中文网络日记【超凡博俗】之 IT 博客系列【数码人生】,由WebGuru[网络精灵]维护管理 Powered by SuperIT Web Studio Copyright ©2007 All rights reserved.

      该博客网站上所有文章除特别注明外都是由 WebGuru 个人著作,并不代表 WebGuru 所在公司及所从属的协会等的观点。如果,你认为本人文章所涉及的内容有版权侵犯或名誉损害之嫌,请及时写信通知,我会尽快审核并作出相应撤文行动。同样,如果你想要引用本博客站的有关文章,请保留全文并注明出处!

      Powered By
      SuperIT Web Studio