robots协议书写的正确姿势

robots协议对每个网站来说都至关重要，想要写好自己网站的robots协议就需要明白以下这些内容：

1、什么是robots协议？

robots协议全称“网络爬虫排除标准”，又称爬虫协议、机器人协议等，它规定着搜索引擎抓取网站时所能抓取的内容，是网络爬虫爬行网站时第一个要访问的文件；位于网站的根目录下，文件名是robots.txt 。

2、robots协议的作用是什么？

①robots协议用于保护网站的隐私，可以防止自己网站重要信息的泄露；

②同时，robots协议也能让网络爬虫合理地抓取网站内资源：可以屏蔽掉不想被抓取的隐私内容、后台、数据库文件、模板、插件文件、做了伪静态处理后的动态路径等，只抓取需要参与排名的页面；

③另外，robots协议还可以用于屏蔽一些网站中比较大的文件，如：图片、音乐、视频等，节省服务器的带宽；可以用于屏蔽站点的垃圾页面和死链。

robots协议是使用英文书写的，其写法如下：

①User-agent: 其后跟的是搜索引擎的名字，用于指定robots协议定义的对象；

②Disallow: 其后跟的是不允许网络爬虫抓取的文件的名称，用于定义禁止爬行的网站内容；

③Allow: 其后跟的是允许网络爬虫抓取的文件的名称，用于定义允许爬行的网站内容，一般不需要进行定义；

④* 它是一个通配符，用于指代“所有或任意的内容”；

⑤$ 它是结束符，用于定义相同后缀名的文件的后面，例如不允许抓取所有的图片文件时就可以以$结束行。

①不要随便地进行整站屏蔽，因为robots协议的生效时间短的是几天，长的是一个月；

②要注意空格，在“User-agent:”、“Disallow:”和“Allow:”的后面都有一个空格；

③要注意每一行的第一个首字母都需要大写。

看完整篇文章，你会正确地书写自己网站的robots协议了吗？会的话，抓紧时间给自己的网站添加一个robots协议吧。