会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > Robots.txt编写似雷区 稍有失慎“迫害甚深”(一)

Robots.txt编写似雷区 稍有失慎“迫害甚深”(一)

时间:2012-04-06 18:56:03   作者:   来源:   点击:

每小我都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比如会员密码等等,而想要遮盖住这部分隐私,一般情况下站长城市在第一时间想到Robots.txt。没错,Robots.txt文件的使用的确可以给蜘蛛指明道路,奉告它什么处所该去,什么处所不该去,也正是因为这点原因,很多站长都热衷于用Robots.txt,可是年夜家真的会用Robots.txt吗?对它的编写法则年夜家又知道多少呢?本人不才,但对这方面总归有点经验,在这分享出来,让年夜家有个参考,当然老鸟可以飞过了。

Robots.txt编写的顺序问题

举个最简单的例子,如果你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是

Allow:/a/b.html Disallow:/a/ 仍是Disallow:/a/ Allow:/a/b.html这样?

在Robots.txt编写法则中,它其实不执行树状阐发布局,换句话说编写时其实不该该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不克不及拜候,而我们最终的目的却是拜候,这样一来,目标和实际就年夜相迳庭了。

Robots.txt编写的开放性问题

很多站长,尤其是新手站长对Robots.txt的理解过于片面,他们认为既然Robots.txt可以规定蜘蛛的拜候途径,那我们何必不开放,把所有文件都设置成可拜候,这样一来网站的收录量不久当即上升了,其实问题远远没有我们想象的简单,年夜家都知道网站中一些固定的文件是没必要传送给搜索引擎拜候的,如果我们把网站“全方位开放”,后果就是加年夜网站办事器负载,下降拜候速度,减缓蜘蛛的爬行率,对网站收录没有一点用处,所以对固定不需要拜候的文件,我们直接Disallow失落便可以了。

一般情况下,网站不需要拜候的文件有后台办理文件、法度脚本、附件、数据库文件、等等。

Robots.txt编写的重复性问题

我们每天都在写着原创内容,然后更新到自己的网站中,年夜家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,年夜家都知道搜索引擎很垂青原创内容,对原创内容的收录很快,相反,如果你的网站中充满着年夜量的复制内容,那么我只能遗憾的奉告你,网站的前途一片渺茫。不过这也从另外一个方面奉告我们要积极的操纵robots文件制止重复页面的代码,下降页面的重复度,可是在编写robots文件时一定要记得

在User-agent后插手某个搜索引擎,例如User-agent:百度Spider Disallow:/,如果没有插手,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏蔽”。

Robots.txt编写的meta问题

在 Robots.txt编写法则中,有一个取最强参数法例,并且如果网站以及页面标签上同时呈现robots.txt文件和meta标签,那么搜索引擎就会从命两个法则中较为严格的一个,即制止搜索引擎对某个页面的索引,当然如果robots.txt文件和meta标签不是呈现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。

Robots.txt编写的细节性问题

分享到:

网友评论