1、什么叫做robots协议
通俗来说就是你的网站跟各大搜索引擎蜘蛛之间的沟通方式,我们可以通过这个文件告诉搜索引擎的蜘蛛哪些文件可以被抓取,哪些文件不能被抓取。因为一个网站并非是所有的文件都跟排名有关系的,有很多文件跟排名没有关系,不能直接参与排名,例如网站的css文件,js文件 以及一些死链接等等,对于这些没有排名价值的文件我们就需要屏蔽掉,屏蔽以后让蜘蛛把更多的精力放在有排名价值的页面上,使得这些页面的权重可提高。
2、robots文件全称是robots.txt,文件名必须是小写,必须放在网站的根目录下面。并非是所有公司的网站都有这个文件,有很多公司网站没有这样的文件。如果没有这样的文件,那么我们就建议给网站添加这个文件。因为蜘蛛在抓取你网站的时候首先就会检测你的站点下面有没有这个文件,如果有,蜘蛛会按照你上面所写的指定文件进行抓取,如果没有这个文件,蜘蛛则会全部抓取,这样就会分散页面的权重。
3、robots文件的写法:
User-agent:蜘蛛的名称
Disallow:禁止抓取文件的名称
Allow:允许抓取文件的名称
*是通用符,代表所有蜘蛛名称;$表示以某字符串结尾,用于图片、视频文件。
4、UA禁封的方式:
第一种:使用robots.txt可以禁止抓取;
第二种:meta robots标签(放在头部);
第三种:直接在链接添加nofollow属性。