相信SEO的朋友,都知道上线前要对根目录的文件robots,写好协议。
robots是什么呢?
百度蜘蛛在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件(蜘蛛爬行网站的第一个要访问的文件),这个文件用于指蜘蛛在你网站上的抓取范围。
如果你未对robots.txt文件进行修改,那么蜘蛛在爬行网站时,也会爬行你的后台。包括你的JS、CSS文件也就等于说你的网站在蜘蛛面前就是一个透明的。
爬行了后台,有什么后果呢?有不懂的小伙伴可能会问到
如果蜘蛛爬行了你的网站后台,那么就收录了的网站后台的地址了。
然后在百度搜索的时候,搜索引擎有可能把你的后台搜索出来,后果可想而知。稍稍有点骇客技术的朋友,分分钟攻入你的后台,这还不可怕吗?
robots一般格式
User-agent: * 定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。
*号代表全部搜索引擎
Disallow:不允许抓取收录
例:后台名称为 dede,那么我不想蜘蛛访问就这样写:/dede/
"/" "/ "精准匹配
"/ " 广泛匹配
"$" 匹配行结束符
"*" 匹配0或多个任意字符
Allow(准许抓取,一般不会写,默认就可以了,当然有特殊要求可以去写)
#:注释
升级知识
屏蔽目录禁止抓取
屏蔽蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录下的wap目录下的index.html文件。
robots.txt写法:
User-agent: *
Disallow:/inc/ (禁止抓取inc文件夹里面的内容)
Disallow:/wap/index.html(禁止抓取wap目录下的index.html文件)
屏蔽某个目录,但要抓取目录下的某个文件
1.屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html的文件
robots.txt写法:
User-agent: *
Disallow:/wap/ (禁止抓取wap文件夹里面的内容)
Allow::/wap/ *.html(准许抓取wap下面的后缀为html文件)
2.禁止抓取根目录下所有带“wap”字符的文件夹及文件,这里我们就需要用到(/ 广泛匹配)这个写法
User-agent: *
Disallow:/wap (一个“/”就可以了)
3.保护隐私文件夹或文件
在写禁止搜索引擎抓取某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等。(这点基本上一般网站用不上),我们可以用广发写法来,保护重要文件。
比如:禁止抓取/inli,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。
User-agent: *
Disallow:/inli
屏蔽动态URL
有时候动态页面可能会和静态页面相同,造成重复收录。(影响蜘蛛友好度)
- 屏蔽动态URL
- User-agent:*
- Disallow:/*?*
- 仅允许访问“.html”为后缀的URL
- User-agent:*
- Allow:.html$
- Disallow:/
屏蔽死链接
- 向提交百度站长平台提交死链
- robots禁止蜘蛛抓取死链,写法同上,最好带完整路径
User-agent:*
Disallow:(网站域名)
屏蔽不参与排名的页面链接
写法:
直接在不需要排名的页面链接,添加nofollow便签
<a rel="nofollow" href="网站地址">登陆</a>
sitemap索引在robots.txt的位置
sitamap(网站地图)位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则爬去。
Sitemap:“网站地址”+“sitemap.xml”
Sitemap:“网站地址”+“sitemap.html”