=>古記事2009/07/11 画像一括展開 & 画像一括拡大機能追加
<=新記事2009/07/12 作品DBトップのデザイン変更 & 評価付一覧デザイン変更
執筆者ページ/日記投稿
1. 2009/07/11 同日2番目 検索エンジンレポート > 百度(Baidu) > クローラーがrobots.txtを反映した動きをしてくれないB」編集/削除/共有分類に追加/拍手:2個

最近百度がまたrobots.txtに従わず(というか元々従ったことはないのですが...)クロールを行うようになってきた。
Crawl-delay: 300
と300秒に1回の指定をしているのに、6秒に1回集めてくる。
14804 119.63.198.243 11/Jul/2009:02:28:46 200 /pj/6_B1A9CBDAC3BAB9DB/i20070204.html Baiduspider+(+http://www.baidu.jp/spider/)
14805 119.63.198.251 11/Jul/2009:02:28:52 200 /pj/6_B1A9CBDAC3BAB9DB/i20070114.html Baiduspider+(+http://www.baidu.jp/spider/)
14806 119.63.198.204 11/Jul/2009:02:28:58 200 /pj/6_A5E9A1BCA1A6A5E1A5F3/ Baiduspider+(+http://www.baidu.jp/spider/)
14807 119.63.198.197 11/Jul/2009:02:29:04 200 /pj/6_B1A9CBDAC3BAB9DB/i20061211.html Baiduspider+(+http://www.baidu.jp/spider/)
14808 119.63.198.216 11/Jul/2009:02:29:10 200 /pj/6_B1A9CBDAC3BAB9DB/i200611061.html Baiduspider+(+http://www.baidu.jp/spider/)
14809 119.63.198.237 11/Jul/2009:02:29:16 200 /eanime/7_Ng_20Knight_20Lamune_2040/review_n.html Baiduspider+(+http://www.baidu.jp/spider/)

ということで、百度には今までも「Disallow: /」が無視されてきてはいたけど、改めて
User-Agent: BaiduMobaider
Disallow: /
User-Agent: Baiduspider
Disallow: /
User-Agent: Baiduspider+
Disallow: /
User-Agent: BaiduImagespider
Disallow: /
を設定してみた。
これで未だに「Disallow: /」が効かないのなら、またメールを送って、直接収集禁止設定をして貰おう。
Crawl-delayに従ってくれないと、サーバーへの負荷の制御が出来ないから、サーバー管理側としてはとても困る。
逆に従ってくれるのだったら、ROIがほぼ期待できなくても、制御可能範囲になるので収集して貰っても良いか、となるんですけどね。
P.S1: メール出してもすぐには止められなかったので(まあそれはいいのですけど)、httpd.confでブロックをとりあえずするようにした。
↓みたいな定義をすることで、apacheにアクセスが来たら403 Forbidden反応を返す事が出来ます。
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "BaiduMobaider bad_bot
...
<Directory />
...
Deny from env=bad_bot
</Directory>
アクセスまではそれでも来ちゃうから、本当はrobots.txtで完全に取得に来ないようになってくれた方が良いんだけど。
P.S2 メール出したけど今度は返信頂けないままerror_logにひたすらリクエストを弾いた記録が残っていっています。
119.63.198.201 - - [18/Jul/2009:04:53:15 +0900] "GET /tj/6_BDBDBCEBB9ACC2E5/ HTTP/1.1" 403 198 www.accessup.org 202 409 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.218 - - [18/Jul/2009:04:53:21 +0900] "GET /tj/6_BDB5B4A9A5E2A1BCA5CBA5F3A5B0/info.html HTTP/1.1" 403 211 www.accessup.org 223 422 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.249 - - [18/Jul/2009:04:53:27 +0900] "GET /pj/6_A5AEA5DFA5AEA5DFA5BA/i20060309.html HTTP/1.1" 403 207 www.accessup.org 220 418 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.229 - - [18/Jul/2009:04:53:33 +0900] "GET /pj/6_A5AEA5DFA5AEA5DFA5BA/20080322.html HTTP/1.1" 403 206 www.accessup.or219 417 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.253 - - [18/Jul/2009:04:53:39 +0900] "GET /pj/6_A5ADA5F3A5B9A5E9/200605271.html HTTP/1.1" 403 207 www.accessup.or216 418 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.221 - - [18/Jul/2009:04:53:45 +0900] "GET /pj/6_A5ADA5F3A5B9A5E9/20060421.html HTTP/1.1" 403 206 www.accessup.or215 417 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.212 - - [18/Jul/2009:04:53:51 +0900] "GET /tj/6_BDA9B8B5B9AF/related_deviation.html HTTP/1.1" 403 212 www.accessup.org 220 423 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"

P.S3 メール貰ってrobots.txtを再度公開すれば...とあったけど、robots.txtを実験サーバー側で見えるようにして弾く設定にして暫く様子を眺めていたけどやっぱり収集が止まらなかったのでそのまま弾きました。
もしかしてBaiduspider+には改善があったのかもしれないけど、Baidumobiderというモバイル用クローラーの攻撃を止めるには能わず。
もうBaiduの対応には期待しないで、するとしたらいつかrobots.txtに従ってくれるようになることを期待してrobots.txtだけ見えるhttpd.confの設定をするしかないな。
error_logだけでも相当残るリクエスト数なので、どういう風に記述すればいいのか後で考えよう。

/コメントする(論客以外もコメント可能記事)/記名拍手 or 無名拍手:2個


=>古記事2009/07/11 画像一括展開 & 画像一括拡大機能追加
<=新記事2009/07/12 作品DBトップのデザイン変更 & 評価付一覧デザイン変更
執筆者ページ/日記投稿


初めて来てくれた方へ
折角なのでトップページからどんなサービスを提供しているのか色々見ていって下さい。
なお、連絡は私書、DB外ユーザの方ならメールで可能です
作品DB内検索



[作品DBトップに戻る]
[外]待受/着替/着メロ/着歌
エンタメ:ゲーム/漫画/小説/
生活:乗換/天気/地図/バイト/転職/宿泊//賃貸/
友達招待:コピー/メール

作品DB(トップ/Myページ)|(c)1st Class(サービス:最速検索/皆声.jp/作品DB/)