一、Robots文件使用方法
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
在服务器设置有问题的情况下,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这样可能会使搜索引擎错误解读robots文件信息,所以就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下;
robots.txt文件的格式:
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开,每一条记录的格式如下所示:
field:optionalspacevalueoptionalspace
域:可选空格域值可选空格
例1. 禁止所有搜索引擎抓取任何内容,该robots.txt文件:
User-agent: *
Disallow: /
例2. 禁止某个搜索引擎的访问
User-agent: baiduspider
Disallow: /
例3. 允许某个搜索引擎的访问
User-agent: baiduspider
例4.告诉蜘蛛不要抓取/cgi-bin/和/tmp/目录下的内容及文件/aa/index.html
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /aa/index.html
例5.Allow告诉蜘蛛应该抓取某些文件,单独写没有意义,需要和Disallow配合使用,可以告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
例6.$通配符匹配URL结尾的字符,如允许蜘蛛抓取以.htm为后缀的URL
User-agent: *
Allow: .htm$
禁止百度抓取所有.jpg文件
User-agent: Baiduspider
Disallow: .jpg$
例7.*通配符告诉蜘蛛匹配任意一段字符,如禁止蜘蛛抓取所有htm文件
User-agent: *
Disallow: /*.htm
只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不抓取页面内容,但会以一下几种形式显示在搜索引擎结果中:
1.只显示URL,没有标题,描述;
2.显示开放目录或雅虎等重要目录的标题和描述;
3.导入链接的锚文字显示为标题和描述;
4.要想使URL完全不出现在结果中,需要使用页面上的meta robots标签;
主流搜索引擎都支持robots文件指令,robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但注意的是,被禁止抓取的URL还是可能出现在结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不抓取页面内容,但会以一下几种形式显示在搜索引擎结果中:
1.只显示URL,没有标题,描述;
2.显示开放目录或雅虎等重要目录的标题和描述;
3.导入链接的锚文字显示为标题和描述;
要想使URL完全不出现在结果中,需要使用页面上的meta robots标签;
二、Meta robots文件使用方法
Meta robots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容
最简单的meta robots标签格式为:
meta name=“robots” content=“noindex,nofollow”
禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接
标签不区分大小写
各标签使用方法:
1、NOINDEX:告诉蜘蛛不要搜索本页面
2、NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接
3、NOSNIPPET:告诉搜索引擎不要在搜索结果中显示说明文字
4、NOARCHIVE:告诉搜索引擎不要显示快照
5、NOODP:告诉搜索引擎不要使用开放目录中的标题和说明
百度官方目前只支持NOFOLLOW和NOARCHIVE
meta name=“robots” content=“index,follow”
没有意义。需要被收录、索引,链接需要被跟踪的页面,不用写meat robots标签
三、Nofollow文件使用方法
Nofollow属性只适用于本链接。
Nofollow代码形式为:
:a href=“https://www.example.com” rel=“nofollow”这里是锚文字/a。
Nofollow标签常用于博客、论坛、社会化网站、留言板等地方