Baiduspider

Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット（クローラ）。

過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることから、アクセス拒否を行うサイトも見られた。これに対し、2007年、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪^[1]するとともにクローリングの頻度管理を統一するなどの対処策を発表している。また同年5月には負荷の少ない新型クローラーを投入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している^[2]。

Robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止することができる^[3]とされているが、実際にはRobots.txtを無視してアクセスを続ける例が報告されている。またUAの詐称も報告されている。^[4].htaccessで対処しても、大量のエラーメッセージを残すので、サーバーの負担になる。

Baiduspiderの他に、画像検索のBaiduImagespiderや携帯検索のBaiduMobaiderもあり、これらも遮断する必要がある。

確認されているユーザーエージェント

Baiduspiderの確認されているUAは以下である

Baiduspider+(+http://help.baidu.jp/system/05.html#1))
Baiduspider+(+http://help.baidu.jp/system/05.html#2)
Baiduspider+(+http://www.baidu.jp/spider/)
BaiduMobaider
BaiduImagespider

脚注

[1]
百度株式会社 (2007年3月8日). “Baidu（百度）- プレスセンター Baidu.jp、Baidu Spiderに関する御詫びと対処法について”. 2008年5月22日閲覧。
[2]
百度株式会社 (2007年5月28日). “Baidu（百度）- プレスセンター Baidu.jp、負荷の少ない新型Spiderを投入”. 2008年5月22日閲覧。
[3]
百度株式会社. “Robots.txtとは”. 2008年5月22日閲覧。
[4]
http://ikeike.mo-blog.jp/blog/2009/02/150708442baidus_79a2.html

外部リンク

バイドゥ株式会社

[1] [1]
百度株式会社 (2007年3月8日). “Baidu（百度）- プレスセンター Baidu.jp、Baidu Spiderに関する御詫びと対処法について”. 2008年5月22日閲覧。

[2] [2]
百度株式会社 (2007年5月28日). “Baidu（百度）- プレスセンター Baidu.jp、負荷の少ない新型Spiderを投入”. 2008年5月22日閲覧。

[3] [3]
百度株式会社. “Robots.txtとは”. 2008年5月22日閲覧。

[4] [4]
http://ikeike.mo-blog.jp/blog/2009/02/150708442baidus_79a2.html

[1]

[2]

[3]

[4]