大家都知道,网站采用robots.txt文件可以使搜索引擎的“蜘蛛”按照文件中确定的范围来访问,不会访问到对网站排名不利的内容。那么robots.txt文件是怎么工作的呢?我们又该如何使用robots.txt文件呢?
一、robots.txt文件工作原理
1.robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
2.当一个搜索引擎“蜘蛛”访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果找到,搜索引擎“蜘蛛”就会按照该文件中的内容来确定访问的范围。如果该文件不存在,那么搜索引擎“蜘蛛”就沿着链接抓取。
3.robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。
二、robots.txt文件的设置
1.User-agent的设置
在"robots.txt"文件中,如果有多条 User-agent 记录说明有多个 robot 会受到"robots.txt"的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为*,则对任何 robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。
2.Disallow的设置
这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的URL不会被 robot 访问。
3.Allow的设置
与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow项的值开头的 URL是允许robot访问的。
三、robots.txt文件使用技巧
1. 每当用户试图访问某个不存在的 URL 时,服务器都会在日志中记录 404 错误(无法找到文件)。每当搜索引擎“蜘蛛”来寻找并不存在的 robots.txt 文件时,服务器也将在日志中记录一条 404 错误,所以你应该在网站中添加一个 robots.txt。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。
3. 如果网站是动态网页,动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么需要在 robots.txt 文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
4. robots.txt 文件里还可以直接包括在 sitemap 文件的链接。
5. 合理使用 robots.txt 文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在 robots.txt文件里设置来阻止搜索者直接进入购物车页面。