Baiduspiderは、中国の検索サイト「百度」のために、ウェブサイトの情報を収集するロボット(クローラ)。
過去には非常に短い間隔で次々とリクエストを行うなどの問題によって、ウェブサーバを不安定に陥れる可能性があることから、アクセス拒否を行うサイトも見られた。 これに対し、2007年、百度は日本向けウェブサイトにおいてBaiduspiderが過剰な負荷をかけたことを謝罪[1]するとともにクローリングの頻度管理を統一するなどの対処策を発表している。また同年5月には負荷の少ない新型クローラーを投入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している[2]。
Robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止することができる[3]とされているが、実際にはRobots.txtを無視してアクセスを続ける例が報告されている。またUAの詐称も報告されている。[4].htaccessで対処しても、大量のエラーメッセージを残すので、サーバーの負担になる。
Baiduspiderの他に、画像検索のBaiduImagespiderや携帯検索のBaiduMobaiderもあり、これらも遮断する必要がある。
確認されているユーザーエージェント
Baiduspiderの確認されているUAは以下である
Baiduspider+(+http://help.baidu.jp/system/05.html#1)) Baiduspider+(+http://help.baidu.jp/system/05.html#2) Baiduspider+(+http://www.baidu.jp/spider/) BaiduMobaider BaiduImagespider
脚注
外部リンク
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.