Robots是网站与搜索引擎之间的协议,它可以告诉搜索引擎的蜘蛛哪个页面可以抓,哪个页面不能抓,存在于网站根目录,文件名字是robots.txt。如何查看robots,它对网站的影响有多大?
在网址后面直接加上“/robots.txt”即可查看(例:http://www.cishanseo.com/robots.txt)。Robots文件是规范搜索引擎收录的,如果没有规范,搜索引擎随便抓取,可能会抓取到大量的垃圾页面,这些垃圾页面被收录后,百度会认为网站是低质量的,会影响到网站的权重月排名。
一、Robots协议的书写规则:
1、User-agent: 定义搜索引擎的种类,出现在协议文件的第一行。Baiduspider(百度蜘蛛)、360Spider(360蜘蛛)、Sosospider(SOSO蜘蛛)等,“*”星号表示所有,User-agent: * 表示对所有的搜索引擎而言。
2、Disallow: 定义禁止抓取的地址,以“/”开头,斜杠表示网站根目录。冒号后面为关键词,路径里出现该关键词的都会被屏蔽。
屏蔽动态链接:Disallow: *?*
屏蔽所有css文件:Disallow: *.css$,“$”是结束符号,该条规则表示屏蔽所有以.css结尾的文件。
3、Allow: 允许抓取,一般用不到,规则默认就是允许的。
二、书写格式:
1)第一个英文字母必须是大写。
2)冒号必须是英文状态下的。
3)冒号后面有且只有一个英文状态下的空格。
静竹SEO提醒您,在写robots协议的时候一定要严格安照书写规则来写,这是搜索引擎给出来的规定,不是这个格式,它不认识。
如果不确定自己写的协议是否正确,可以通过百度站长平台来检测。
图一:百度站长平台校验robots协议
三、什么情况下使用
1、统一路径,有的网站一个页面存在动态和静态两种链接,屏蔽掉动态链接,就可以把网站统一成静态的链接了,统一路径是有利于网站优化的。
2、屏蔽站内搜索链接,搜索任意一个词都会产生一个链接,而这些链接又是毫无意义的,收录后同样会降低网站质量度。
3、中文路径。网站标签产生的中文路径或者其他的中文路径。
图二:网站标签
4、js文件。
四、注意事项:
1、反斜杠后面一定不能有空格,Disallow: / abc,反斜杠后面的空格意味着屏蔽整站。
2、生效时间在两个月以内。
3、不要随便屏蔽整站。