当一个搜索蜘蛛访问网站时,首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有,没有被口令保护的页面。
01-robots文件
(1)robots.txt是搜索引擎访问网站时查看的第一个文件,它告诉蜘蛛程序所在服务器什么文件是可以被查看。
(2)若存在robots.txt文件,搜索机器人会按照该文件中的内容来确定访问的范围;若该文件不存在,所有的搜索蜘蛛将能够访问网站上所有页面。
(3)robots.txt必须放在一个站点的根目录下,且文件名必须全部小写(真实的服务器就使用ftp上传)。
(4)建议就算允许所抓取所有内容,也要建一个空的robots.txt文件。
(5)可将sitemap网站地图放置robots.txt文件(地图写法:http://abc.com/sitemap.html)。
Robots.txt的语法写作(*号代表通配符,disallow=/*?*/表示不能访问带有?的网址,即动态网址)
A、允许所有搜索引擎访问网站所有内容
User-agent: *
Disallow:
B、禁止所有搜索引擎访问网站所有内容
User-agent: *
Disallow: /
C、只允许百度搜索引擎抓取
User-agent: Baiduspider
Disallow: /
D、如果我们禁止除百度外的一切搜索引擎索引
User-agent: Baiduspider
Disallow:
E、禁止访问某个目录,比如images
robots.txt写法如下:
User-agent: *
Disallow: /images/
02-mate robots.txt文件
(1)mate robots标签是页面head部分mate标签的一种,用于指令搜索引擎禁止索引本页内容。
(2)语法:禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
<meta name="robots" content="noindex,nofollow">
(3)百度目前只支持nofollow和noarchive。
noindex:告诉蜘蛛不要索引本页面。
nofollow:告诉蜘蛛不要跟踪本页面上的链接(该页面所有链接)。
nosnippet:告诉搜索引擎不要在搜索结果中显示说明。
noarchive:告诉搜索引擎不要显示快照。
noodp:告诉搜索引擎不要使用开放目录中的标题和说明。
03-nofollow的使用
(1)nofollow代码型式: <a href:''http://www.example.com/'' rel="nofollow">这里是锚文字</a>
(2)链接的nofollow属性只适用于本链接(单个指定的链接),而mate robots标签的nofollow指的是页面所有链接。
(3)nofollow最初目的是减少垃圾链接对搜索引擎排名的影响,搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。
了解robots、mate robots、nofollow的功能,更好的保护和展现网站内容。