robots文件的原理及制作方法—SEO优化培训原创秘笈(三)-robots文件

robots文件的原理及制作方法-SEO优化培训原创秘笈(三):

本文绝对原创,如果需要转载请注明出处,随意转载必究,版权属于广州新川教育SEO培训组。本节课讲一下robots文件的制作方法。

今天继续早起,看了看时间,凌晨6:35,倒上一杯水,继续写关于SEO的原创教程吧,希望大家能够从中真正学到自己想要的东西,如果你觉得自己本来就精通这些SEO技术,请绕道吧,如果你还只是懂一些SEO的状态,请用心看下去。

robots文件的原理及制作方法—SEO优化培训原创秘笈(三)

robots文件的写法

对于一个网站来说,要想做好SEO优化,有四样事情是必须做的:robots文件,301重定向,404错误页面,sitemap网站地图,那么它们分别是什么意思,又应该如何制作呢?从这节课开始,我将依次为大家解释这些,这节课,先同大家详细解释一下robots文件的制作方法。

  1. 什么是robot文件?
  2. 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
  3. 我经常在上课时将搜索引擎与网站的关系比作成一个客人与主人家里的关系,搜索引擎去访问一个网站与一位客人去访问主人家里是一样的,我作为一个客人,如果去到朋友家里,如果朋友家里井井有条,干净整洁,我肯定喜欢,并且,主人家里很多房间,客房我是可以去的,洗手间我是可以去的,但主人家的卧室我估计就不能随便去了,那么主人家的处理方式应该是怎么样的呢?很简单,只需要在你的房间门口上贴一个牌子标明这是什么房间即可。对于一个网站而言,robots文件就是这些牌。
  4. robots文件就是一个扩展名为txt的文本文档,它必须放置在网站的根目录下面。它就是用来指示搜索引擎的蜘蛛哪些页面是它应该要去读的,哪些页面是不用它去读取的。接下来我们看看robots文件应该怎么去写。
  5. robots文件怎么写?
  6. robots文件全名是:robots.txt,它的内容如下:
  7. 通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
  8. 一:User-agent:
  9. 用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,对于一般的企业网站或者门户网站来说,我们是强烈希望我们的网站是被搜索引擎收录的,所以,我们在这一项的写法就是:User-agent:* 表示允许所有的搜索引擎抓取我的网页,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条,但user-agent某个网站的记录可以有很多。
  10. 二:Disallow:
  11. 用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,这种URL可以是一个页面的名称,也可以是一个文件的名称,也可以是一个文件夹。任何以Disallow 开头的URL均不会被robot访问到。在"/robots.txt"文件中,至少要有一条Disallow记录。如果"robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的,也就是说任何搜索引擎可以抓取这个网站的任何页面。

robots文件的原理及制作方法—SEO优化培训原创秘笈(三)

如何写robots文件

  1. 我们举一些小例子来解释:
  2. A. 刚好昨天晚上上课时有个学生提出这样的问题:“我们公司的网站不准百度抓取,在robots文件里如何实现?”,其实很简单,robots文件写法如下:
  3. user-agent:baiduspider(注:baiduspider为百度蜘蛛的名字,其它搜索引擎蜘蛛的名字大家可以上网搜索一下,很容易找到)
  4. disallow:/
  5. user-agent:*
  6. 原理:因为robots文件的执行是从上到下一行一行执行的,前两行是先禁止百度收录,第三行是允许其它任何搜索引擎收录。
  7. B.如果我们的网站禁止任何搜索引擎收录,比如淘宝网,robots文件代码如下:
  8. user-agent:*
  9. disallow:/
  10. C.相反,如果允许任何搜索引擎收录任何页面,则是:
  11. user-agent:*
  12. disallow:
  13. 或者直接在网站要目录下加一个空的robots.txt文档就可以了。
  14. D.一个普遍的robots文件的写法:
  15. User-agent: *
  16. Disallow: /admin/
  17. Disallow: /js/
  18. 这表示,不准任何搜索引擎读取admin,js目录下面的所有东西。
  19. robots文件的制作方法:
  20. 新建一个记事本文档:robots.txt,然后写好它,再将它上传至网站的根目录下即可。
  21. robots制作过程:
  22. 网站中哪些文件或者文件夹要被禁止搜索引擎抓取呢?凡是不需要参与排名的都要被禁止抓取。
  23. 如:网站后台、JS文件、数据库、包含文件、CSS样式等等。

好了,今天关于网站robots文件的制作就写到这里了,它的主要目的是减少搜索引擎的工作量,让收录更加有针对性。

时间已经七点半了,写它花了我一小时整,呵呵,累并快乐着,准备洗漱然后去学校了,明天,我将继续同大家讲解网站优化必做的四件事:robots文件,301重定向,404错误页面,sitemap网站地图的其它三个项目。谢谢大家耐心看完这篇文章,我们将继续更用心地写系列原创文章。

推荐阅读