wordpress网站优化之robots.txt爬虫协议的写法-robots文件

爬虫协议Robots.txt是在网站上找到的第一个文件搜索蜘蛛。它告诉搜索引擎可以抓取哪些页面以及哪些页面无法抓取。

当我们在我们的网站上有错误页面时，或者某些页面不希望蜘蛛抓取时，合理配置的机器人协议可以使蜘蛛更有效，更快速地抓取需要抓取的内容。当搜索引擎蜘蛛进入网站时，首先要确定网站根目录目录下是否有robots.txt文件。如果存在，则根据文件的规范对内容进行爬网;如果该文件不存在，则根据默认规则对网站中的所有页面进行爬网。%20。因此，本文介绍了一些机器人的语法和常见示例。

网站设置robots.txt的好处：禁止搜索引擎包含页面的一部分;引导蜘蛛爬行站点地图;可以在一定程度上保护网站安全;节省流量等。

Robots基本语法：

1、定义搜索引擎：User-agent。

User-agent:%20*%20#所有的搜索引擎
User-agent:%20Baiduspider%20#百度蜘蛛
User-agent:%20Googlebot%20#谷歌蜘蛛

2、Disallow%20禁止爬取。

Disallow:%20/admin/%20#禁止爬取admin文件夹
Disallow:%20/login.html%20#禁止爬取登录页面

3、Allow%20允许。默认情况下，都是允许的。

例如：禁止admin文件夹下的所有文件，除了.html的网页。如果用Disallow一个一个的禁止，太浪费时间了。

此时用Allow就解决这个问题：

Allow:%20/admin/.html$%20
Disallow:%20/admin/

4、$%20结束符。

例：允许所有的以.html结尾的文件。不管前面有多长的URL，只要以.html结尾都允许

Allow:%20.html$

5、*%20通配符符号0或多个任意字符。

例：屏蔽所有的动态URL

User-agent:%20*
Disallow:%20/*?*

6、Sitemap%20声明网站地图。

Sitemap:%20http://www.xiaowangyun.com/sitemap.xml

7、#:%20注释符。

8、版本号

Robot-version:%20Version%201.0

注：

1.robots.txt文件存放在网站根目录下。
2.文件名所有字母都必须小写（robots.txt）。
3.User-agent、Disallow、Allow、Sitemap必须是第一个字母大写，后面的字母小写，后面英文字符下的空格。

常用Robots.txt%20文件举例

例1、禁止所有搜索引擎访问网站的任何部分

User-agent:%20*
Disallow:%20/

例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。

User-agent:%20*

Disallow:%20/admin/

Disallow:%20/log/

Disallow:%20/bin/

例3、禁止某个搜索引擎抓取网站上的所有图片

User-agent:%20*
Disallow:%20.webp$
Disallow:%20.webp$
Disallow:%20.webp$
Disallow:%20.webp$
Disallow:%20.bmp$caca

参考如下：（不清楚的可以留言）

User-Agent: *
Disallow: /wp-admin/
Disallow: /lqbz/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /*/feed
Disallow: /go/
Disallow: /demo/
Disallow: /comments/feed
Disallow: /comments/
Disallow: /*/comment*
Sitemap: https://tinggezhao.com/sitemap.xmlbu