网站快速收录技巧二：搜索引擎最先爬行的robots文件-robots文件

你是否也在为网站收录少、询盘少而困惑？你是否也在苦苦寻找网站快速收录的技巧？

你是否因为网站收录问题而被老板“刁难”？

你是否很想掌握网站快速收录的使用技巧？

那么接下来的系列文章将使你拨开云雾见日出！

请持续关注。。。

网站快速收录技巧二：搜索引擎最先爬行的robots文件

上次给大家分享的基础篇，对于网络运营小白比较浅显易懂，网络运营老司机就直接可以忽略了。

那么今天小编分享的内容呢，可能很多网络运营小伙伴没有见过，不过也很简单，很好懂。接下来小编就絮叨絮叨。

想提升网站的收录量，首先你得知道搜索引擎是如何收录网站的文章的。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。

spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。你可以在您的网站中创建一个纯文本文件robots.txt，在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

比如你在百度上很难搜到淘宝、天猫、京东等网站的店铺及其商品信息，为什么呢？就是这些平台禁止百度蜘蛛（BaiduSpider）进行爬行和收录。

先给大家看一下淘宝的robots文件是怎么写的，看下面截图：

网站快速收录技巧二：搜索引擎最先爬行的robots文件

很多情况下，robots文件是为了屏蔽Spider对我们网站一些内容进行收录的，比如我们的网站后台管理系统。那么robots文件对网站收录又有什么作用呢？

Spider是通过网页内部的链接发现新的网页，但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap，最简单的 Sitepmap 形式就是 XML 文件，在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等)，利用这些信息搜索引擎可以更加智能地抓取网站内容。sitemap作为另一个课题，小编将单独拿出来讲，在这里先不赘述。

那么，Spider怎么知道这个网站有没有提供sitemap文件，或者说网站管理员生成了sitemap(可能是多个文件)，爬虫怎么知道放在哪里呢?

由于robots.txt的位置是固定的，于是大家就想到了把sitemap的位置信息放在robots.txt里。这样你在更新sitemap之后，Spider在抓取robots的时候就会自动抓取sitemap上面的内容，提升网站的收录效率。给大家看一下小编的网站的robots文件是怎么写的。大家可以仿照着做一做哦。

网站快速收录技巧二：搜索引擎最先爬行的robots文件

需要注意的是：robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。通常爬虫的做法是先抓取一次，解析后缓存下来，而且是相当长的时间。假设网站管理员更新了robots.txt，修改了某些规则，但是对爬虫来说并不会立刻生效，只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是，爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然，有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化，建议重新抓取。注意，此处是建议，即使你通知了搜索引擎，搜索引擎何时抓取仍然是不确定的，只是比完全不通知要好点。

今天的文章就介绍到这里，关于robots文件有什么疑问的，可以在留言处留言交流。robots文件工具，可以在百度一下。

敬请关注《网站快速收录技巧》系列文章第三篇《搜索引擎自动收录功能》，微信关注“szqwyx”即可查看哦！关注后回复“robots文件”可获得《robots文件12种使用方法》的文档下载链接。