搜索引擎robots相关文件-robots文件

当一个搜索蜘蛛访问网站时,首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有,没有被口令保护的页面。

搜索引擎robots相关文件

01-robots文件

(1)robots.txt是搜索引擎访问网站时查看的第一个文件,它告诉蜘蛛程序所在服务器什么文件是可以被查看。

(2)若存在robots.txt文件,搜索机器人会按照该文件中的内容来确定访问的范围;若该文件不存在,所有的搜索蜘蛛将能够访问网站上所有页面。

(3)robots.txt必须放在一个站点的根目录下,且文件名必须全部小写(真实的服务器就使用ftp上传)。

(4)建议就算允许所抓取所有内容,也要建一个空的robots.txt文件。

(5)可将sitemap网站地图放置robots.txt文件(地图写法:http://abc.com/sitemap.html)。

搜索引擎robots相关文件

Robots.txt的语法写作(*号代表通配符,disallow=/*?*/表示不能访问带有?的网址,即动态网址)

A、允许所有搜索引擎访问网站所有内容

User-agent: *

Disallow:

B、禁止所有搜索引擎访问网站所有内容

User-agent: *

Disallow: /

C、只允许百度搜索引擎抓取

User-agent: Baiduspider

Disallow: /

D、如果我们禁止除百度外的一切搜索引擎索引

User-agent: Baiduspider

Disallow:

E、禁止访问某个目录,比如images

robots.txt写法如下:

User-agent: *

Disallow: /images/

搜索引擎robots相关文件

02-mate robots.txt文件

(1)mate robots标签是页面head部分mate标签的一种,用于指令搜索引擎禁止索引本页内容。

(2)语法:禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

<meta name="robots" content="noindex,nofollow">

(3)百度目前只支持nofollow和noarchive。

noindex:告诉蜘蛛不要索引本页面。

nofollow:告诉蜘蛛不要跟踪本页面上的链接(该页面所有链接)。

nosnippet:告诉搜索引擎不要在搜索结果中显示说明。

noarchive:告诉搜索引擎不要显示快照。

noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

搜索引擎robots相关文件

03-nofollow的使用

(1)nofollow代码型式: <a href:''http://www.example.com/'' rel="nofollow">这里是锚文字</a>

(2)链接的nofollow属性只适用于本链接(单个指定的链接),而mate robots标签的nofollow指的是页面所有链接。

(3)nofollow最初目的是减少垃圾链接对搜索引擎排名的影响,搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。

了解robots、mate robots、nofollow的功能,更好的保护和展现网站内容。

推荐阅读