robots.txt是什么?制作robots.txt文件注意事项

robots.txt是什么?我们的网站有许多东西是不希望搜索引擎抓取的,比如淘宝网站中的用户信息,淘宝网就不希望百度等搜索引擎抓取,我们个人站长网站的后台地址也是不希望搜索引擎收录抓取的,如果一些不怀好意的人通过搜索引擎找到我们的后台路径,同时,又有技术入侵我们的网站,对于我们来说是不好的。所以各个站长就和各搜索引擎达成了一个协议,这个协议向搜索引擎表明了网站里的哪些东西是可以抓取的,哪些是不可以抓取的,这个协议就是robots.txt文档。

当搜索引擎每次来到我们网站时,每次都会首先访问robots.txt,这样搜索引擎就会知道哪些信息是我们不希望搜索引擎抓取的,哪些是希望搜索引擎抓取的。那么,robots.txt文档如何制作?现在网上教程特别多,在这里我就不多讲述,我们主要说下制作robots.txt文档的一些注意事项。

1、robots.txt文件名的大小写千万不能错,同时,文档里面的符号使用的是中文还是英文也一定要注意。制作好robots.txt文档要放到网站根目录下 。

2、至少屏蔽一个。刚开始做网站,如果没有想要屏蔽的网页,也要找一个不是很重要的网页链接屏蔽掉,比如:404页面、低质量的搜索页面就可以优先选择屏蔽掉。

3、记得放入Sitemap文件,前面说了,robots.txt文档不仅能告诉搜索引擎哪些是我们不想收录的,也能告诉搜索引擎哪些是我们想收录的,那么,怎么告诉搜索引擎哪些是我们想要收录的呢,就是放入Sitemap文件。

4、robots.txt文件可以陆续放入,并不是制作好后不能修改了。一般随着网站建站的时间,产生的低质量链接越来越多,所以,我们可以随时把这些垃圾链接放到robots.txt文件中。那么robots.txt文件主要放哪些文章呢?

(1)网站后台地址。许多站长说本来禁止搜索引擎抓取就是防止别人知道你后台链接的,你现在放在robots.txt文件里,直接告诉人家,那还有什么意义。其实,这个问题我也考虑过,我建议你不要把链接地址写全,比如你网站的后台链接地址是admin.php。那么你可以屏蔽掉以ad开头的链接。这样就能防止其他人通过robots.txt文件知道你的后台链接。

(2)图片链接、下载文件地址。随着网站更新,图片链接、下载文件链接越来越多,蜘蛛抓取图片链接等没有任何意义,而且蜘蛛抓取这些链接会占用带宽,所以可以把图片链接给屏蔽了。

(3)把系统产生的低质量的页面的链接给屏蔽掉。许多站长在做网站时会发现系统会产生很多低质量的链接,这样会增加你网站的评分,降低你网站的权重,所以尽量把低质量的页面给屏蔽掉。

5、修改后的robots.txt文件通常1个月生效。有些站长发现我修改了robots.txt文件,问什么禁止抓取的页面还有收录,这是因为搜索引擎防止有人把robots.txt文件弄错,给了站长一个月的缓冲期。

发布者:鞠十一,转转请注明出处:http://www.httseo.com/seo/2063.html

本文为系统采集,如有侵权请联系本站长删除,微信:18046279049