2007年12月6日 11:22 pm
关于网站搜索中 robots.txt 的感悟
今天是我微软 Microsoft SharePoint MOSS 2007 培训第三天,主题里有怎样设置MOSS中的Enterprise Search 功能。从企业内部的Search,我们的培训导师就开始谈到了SEO的主题,同时也大侃了一番怎样不被Google等搜索引擎机器人爬行到的问题。自己没有当场做太多笔记,就在晚上先写到博客里备查吧。
当然首先他就讲怎样能使网站在搜索排行中靠前。以前的META代码标签,或关键词已不太起多作用了。目前主要是看相关性的关键词是否会重复出现在网页的前200个单词和内外部链接里。这方面的情况虽说不是太新的东西,不过也提醒了我应该密切关注SEO的近况毕竟现在Search Engine的算法也会老更新的。这里,他推荐了一个网站 http://searchenginewatch.com/ 给大家分享。
接下来他就从在 SharePoint 给 site collection 设置 not searchable 来阻止被搜索谈到了怎么不让 Google 等搜索引擎来爬行自己的网站。
#$Header: robots.txt,v 1.12 2007/04/18 16:30:08 etam Exp $ $Locker: $ # robots.txt file for www.hp.com # send e-mail to HP.comOperations@hp.com for updates or problems User-agent: HPSpider Disallow: /go/ Disallow: /info/ Disallow: /support/ Disallow: /JumpData/ User-agent: * Disallow: /cgi-bin/ Disallow: /go/ Disallow: /info/ Disallow: /support/ Disallow: /JumpData/ Disallow: /hpweb/ Disallow: /cposupport/ Sitemap: http://www.hp.com/google-sitemap-index.xml
从上你可以看出,HP公司告诉他们内部的搜索机器人不要搜索 /go/、/info/、 /support/ 和 /JumpData/ 目录,然后叫其他的搜索机器人不要索/cgi-bin/、 /go/、/info/、/support/、/JumpData/、/hpweb/和 /cposupport/ 等目录。
是不是很简单?你现在就可以马上动手给你自己的网站做一个robots.txt文件了。
知道了 robots.txt 是管什么用的了,想不想看一些好玩的地方。在打开你的浏览器,然后键入 http://www.whitehouse.gov/robots.txt 你会看到什么?是不是很惊讶,怎么是要保护这么多的目录。
为了安全?说不过去,既然你要放在因特网上,当然就是一些不很机密的东西也是,而且你从那些子目录的名字上也能判断出他们也不是一些秘密。
这只能体现一个现象,那就是美国政府部门应该给民众公开文档信息的,其中包括在Internet上。按规定如果你是一个公众机构 government entity,你是有义务给纳税人提供他们所需的公开资料。好像以前有过某政府机构因没有在Internet上放置此类的资料而有被民众起诉的案例。
好了,既然按规定说是要放置,那就放好了。但规定里并没有说一定要便于搜索,那我就没有义务提供被搜索的义务了。反正你知道你需要什么文档,问我要,我肯定给你,若你不知道想要什么,对不起了,没有让你全面查索的义务了。
懂了吧!
【前一篇】: Firefox 3.0 beta 测试第一版 »
【后一篇】: 央视主持张斌外遇曝光 妻子大闹新闻发布会(图/视频) »

欢迎光临超凡工作室的中文网络日记【超凡博俗】之 IT 博客系列【数码人生】,由WebGuru[网络精灵]维护管理 Powered by 