网站的后台内部数据要保密,防止被黑客等不法分子攻击网站安全和窃取资料文件,以及和搜索引擎蜘蛛遵守robots协议.
一:什么是robots
robots是一个协议,给搜索引擎蜘蛛看的,告诉搜索引擎那些文件不准抓取,那些文件可以抓取,就像一个守门
的保安站在门口,有好比如入学先要看校规一样,robots文件是放在根目录里面的,格式为robots.txt
二:robots文件解读
User-agent: *
User-agent指的是针对谁,允许谁的意思,*指的匹配所有的意思,整句话可以理解为允许所有的意思
User-agent: Baiduspider指的是允许百度蜘蛛抓取
allow指的是允许
/指的是目录下面的层级,路径层次
allow:/ 指的是允许抓取整个网站的目录
Disallow指的是不允许
Disallow:/ 指的是不允许抓取整个网站的目录
Disallow: /data/指的是不允许抓取data/下面的文件
$:美元符号指的是匹配文件类型的意思,比如:jpg,png,txt,html等文件格式
三:robots需要屏蔽的内容
Disallow: /api/
Disallow: /data/
Disallow: /sourcel/
Disallow: /install/
Disallow: /template/
四:网站地图可以写入robots吗
网站地图有两种,一种是html的,另一种是xml的,蜘蛛第一时间访问的是robots,所以我们把网站的地图也放在这里,更容易让蜘蛛知道我们网站的文件有什么,两种文件地图都可以写入robots里面,比如
Sitemap: http://www.habaijian.com/sitemap.xml
Sitemap: http://www.habaijian.com/sitemap.html
五:如何写一个简单的robots
User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /sourcel/
Disallow: /install/
Disallow: /template/
Sitemap: http://www.habaijian.com/sitemap.xml
Sitemap: http://www.habaijian.com/sitemap.html
注意点:不要随便屏蔽蜘蛛,会影响收录,收录都没了,那么我们也就没什么流量,流量没有网站就完了,robots的生效时间一般是9天或者两个月左右。
分享来自:http://www.habaijian.com/rumenjiaocheng/142.html