中小企业网络营销-能猫企业网络营销顾问,专业提供企业网络营销策略分析、网络营销策划等企业营销服务。

您现在的位置是:首页 - seo优化 - 正文

robots文档的语法介绍和标签说明

    robots.txt是一个纯文本文件,在robots.txt文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定只收录指定的内容,这样可以保护我们网站的隐私数据和会员数据。

    当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。从SEO优化的角度来考虑,我们一般都要在网站的根目录行建立一个robots.txt文档。

    补充说明一下,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

    在实际操作当中,我们一般使用如下方法来书写robots标签。

    <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>

 

 


User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问某站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

 

列举一些robots.txt的具体用法:

允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “robots.txt” 的文件
 

禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /


禁止所有搜索引擎访问网站的几个部分(例如禁止admin、css、image三个文件夹)
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow: /image/

禁止百度搜索引擎的访问(下例中的baiduspider)
User-agent: baiduspider
Disallow: /

 

只允许谷歌搜索引擎的访问(下例中的googlebot)

User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

 

robots meta的介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎robots如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。

content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

表示抓取该站点中页面并沿着页面中链接抓取,但是不在google上保留该页面的网页快照。

 

下面附加一些meta用法

meta是用来在HTML文档中模拟HTTP协议的响应头报文。meta 标签用于网页的<head>与</head>中,meta 标签的用处很多。meta 的属性有两种:name和http-equiv。name属性主要用于描述网页,对应于content(网页内容),以便于搜索引擎机器人查找、分类(目前几乎所有的搜索引擎都使用网上机器人自动查找meta值来给网页分类)。这其中最重要的是description(站点在搜索引擎上的描述)和keywords(分类关键词),所以应该给每页加一个meta值。比较常用的有以下几个:

name 属性

   1、<meta name="generator" contect="">用以说明生成工具(如Microsoft FrontPage 4.0)等;

   2、<meta name="keywords" contect="">向搜索引擎说明你的网页的关键词;

   3、<meta name="description" contect="">告诉搜索引擎你的站点的主要内容;

   4、<meta name="author" contect="你的姓名">告诉搜索引擎你的站点的制作的作者;

   5、<meta name="robots" contect="all|none|index|noindex|follow|nofollow">

  其中的属性说明如下:

  设定为all:文件将被检索,且页面上的链接可以被查询;

  设定为none:文件将不被检索,且页面上的链接不可以被查询;

  设定为index:文件将被检索;

  设定为follow:页面上的链接可以被查询;

  设定为noindex:文件将不被检索,但页面上的链接可以被查询;

  设定为nofollow:文件将不被检索,页面上的链接可以被查询。

  http-equiv属性

   1、<meta http-equiv="Content-Type" contect="text/html";charset=gb_2312-80">

  和 <meta http-equiv="Content-Language" contect="zh-CN">用以说明主页制作所使用的文字以及语言;

  又如英文是ISO-8859-1字符集,还有BIG5、utf-8、shift-Jis、Euc、Koi8-2等字符集;

   2、<meta http-equiv="Refresh" contect="n;url=http://yourlink">定时让网页在指定的时间n内,跳转到页面http;//yourlink;

   3、<meta http-equiv="Expires" contect="Tue,25 Sep 2007 00:18:00 GMT">可以用于设定网页的到期时间,一旦过期则必须到服务器上重新调用。需要注意的是必须使用GMT时间格式;

   4、<meta http-equiv="Pragma" contect="no-cache">是用于设定禁止浏览器从本地机的缓存中调阅页面内容,设定后一旦离开网页就无法从Cache中再调出;

   5、<meta http-equiv="set-cookie" contect="Tue,25 Sep 2007 00:18:00 GMT">cookie设定,如果网页过期,存盘的cookie将被删除。需要注意的也是必须使用GMT时间格式;

   6、<meta http-equiv="Pics-label" contect="">网页等级评定,在IE的internet选项中有一项内容设置,可以防止浏览一些受限制的网站,而网站的限制级别就是通过meta属性来设置的;

   7、<meta http-equiv="windows-Target" contect="_top">强制页面在当前窗口中以独立页面显示,可以防止自己的网页被别人当作一个frame页调用;

   8、<meta http-equiv="Page-Enter" contect="revealTrans(duration=10,transtion=50)">和<meta http-equiv="Page-Exit" contect="revealTrans(duration=20,transtion=6)">设定进入和离开页面时的特殊效果,这个功能即FrontPage中的“格式/网页过渡”,不过所加的页面不能够是一个frame页面。

 

   能猫网络营销,阿东给大家介绍些基本的SEO知识,希望能够帮助到大家。

标签:robotsseo
分类:seo优化| 发布:阿东| 查看: | 发表时间:2011/7/13
原创文章如转载,请注明:转载自能猫生活记录 http://www.wlyxe.cn/
本文链接:http://www.wlyxe.cn/seo/robots.html

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

网络营销

|

网络营销推广

|

网络营销策划

|

网络营销外包

|

企业网络营销

|

网络营销方案

|

网络品牌营销

|

网站运营策划

|

SEO优化

|

中小企业网络营销

|
关于本站 | 联系我们 | 广告服务 | 信息投稿 | 网站地图 | 免责声明 | 申请友链 | 收藏本站
Powered By Z-Blog 1.8 | Login | | Theme By www.wlyxe.cn