关于百度爬虫的一些事

Filed in 互联网 4 comments

我的robots.txt是这么写的:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-content/
Sitemap: http://blog.kongxz.com/sitemap.xml.gz
 
User-agent: Baiduspider
Disallow: /

意思显而易见了:百毒一律禁止。

这个robots.txt是我搬到kongxz.com这个域名(今年7月4日)时就有的。

而我原来用kmxzblog.cn时也一直用PHP进行判断:若user-agent中含有”baidu”就直接wp_die();

8月中旬我向百度投诉,收到了这样的自动回复:

操,真敢说。我一直没管这事。

今天(8月29日)心血来潮到百度上又搜了一遍:

结论

1、本来百度无视robots.txt就是公认的,百度还说什么“baiduspider遵守互联网robots协议”……真是没法形容。

2、原来针对User-Agent判断,对含”baidu”的user-agent输出错误页,但那时候内容还是被正常收录了,说明很可能百度的搜索内容不完全是自己的爬虫收录的。

2010 09 29 4 comments
Tags: , , ,
评论列表
#1 Velanlee :

你还真去找流氓说理啊…

#2 恋羽 :

可能百度站长平台出来后会改

13661166543 北京小姐上门服务www.bjxj88.com酒店服务

#4 Velanlee :

楼上难得一见,赶快围观

发表评论
名字

Email

网址

Delighted Black designed by Christian Myspace In conjunction with Ping Services   |   French Teacher Jobs   |   Maths Teacher Jobs