· 电子商务学习 Dzswxx.com - 造就万名E时代新富豪,培养百万电子商务精英!
电子商务网首页 关于我们
收藏本站
帮助手册
  首 页 最新资讯 电子商务 网上银行 网上开店 网络营销 网站运营 俱乐部教程  
 
网络营销研究 网站推广策略 网络营销书籍 搜索引擎优化
 

您当前的位置: 首 页 → 网络营销教程 → 搜索引擎优化 → 正文

robots.txt和Robots META标签
电子商务学习网 2006-5-22 18:51:32 来源:电子商务
 

  我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

  一、 robots.txt

  1、 什么是robots.txt?

  robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

  当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

  网站 URL

  相应的 robots.txt的 URL

 http://www.w3.org/

 http://www.w3.org/robots.txt

 http://www.w3.org:80/

 http://www.w3.org:80/robots.txt

 http://www.w3.org:1234/

 http://www.w3.org:1234/robots.txt

 http://w3.org/

 http://w3.org/robots.txt

  2、 robots.txt的语法

  "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

  User-agent:

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。

  Disallow :

  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

  任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  下面是一些robots.txt基本的用法:

l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

  3、 常见搜索引擎机器人Robots名字

  名称 搜索引擎

Baiduspiderhttp://www.baidu.com

Scooterhttp://www.altavista.com

ia_archiverhttp://www.alexa.com

Googlebothttp://www.google.com

FAST-WebCrawlerhttp://www.alltheweb.com

Slurphttp://www.inktomi.com

MSNBOThttp://search.msn.com

该文章共3页,当前在第1页  1  2  3  

(责任编辑:淘宝者)关闭本页
 网络营销热点关注
·中小企业如何利用互联网营
·2006年中国网络营销九大动
·网站推广的八种基本方法
·营销行业新趋势:随时随地
·挡不住的网络营销
·如何整合网络营销与传统营
·搜索引擎优化最常见的五个
·博客营销,挖掘P2P时代的下
·robots.txt和Robots META标
·网络支付:用今天的脑子赚
 最新网络营销
·网站推广的八种基本方法
·挡不住的网络营销
·robots.txt和Robots META标
·中小企业如何利用互联网营
·如何整合网络营销与传统营
·2006年中国网络营销九大动
·网络支付:用今天的脑子赚
·电子邮件营销的两大法律障
·制造业:如何构建你的营销
·论文:跨世纪的网络营销
   
关于我们 | 服务条款 | 广告服务 | 帮助手册 | 友情链接 | 网站地图 | 收藏本站
Copyright © 2000 - 2005 Dzswxx.com. All Rights Reserved
电子商务学习网 版权所有 蜀ICP备05005836号