最近百度がまたrobots.txtに従わず(というか元々従ったことはないのですが...)クロールを行うようになってきた。
Crawl-delay: 300
と300秒に1回の指定をしているのに、6秒に1回集めてくる。
14804 119.63.198.243 11/Jul/2009:02:28:46 200 /pj/6_B1A9CBDAC3BAB9DB/i20070204.html Baiduspider+(+http://www.baidu.jp/spider/)
14805 119.63.198.251 11/Jul/2009:02:28:52 200 /pj/6_B1A9CBDAC3BAB9DB/i20070114.html Baiduspider+(+http://www.baidu.jp/spider/)
14806 119.63.198.204 11/Jul/2009:02:28:58 200 /pj/6_A5E9A1BCA1A6A5E1A5F3/ Baiduspider+(+http://www.baidu.jp/spider/)
14807 119.63.198.197 11/Jul/2009:02:29:04 200 /pj/6_B1A9CBDAC3BAB9DB/i20061211.html Baiduspider+(+http://www.baidu.jp/spider/)
14808 119.63.198.216 11/Jul/2009:02:29:10 200 /pj/6_B1A9CBDAC3BAB9DB/i200611061.html Baiduspider+(+http://www.baidu.jp/spider/)
14809 119.63.198.237 11/Jul/2009:02:29:16 200 /eanime/7_Ng_20Knight_20Lamune_2040/review_n.html Baiduspider+(+http://www.baidu.jp/spider/)
ということで、百度には今までも「Disallow: /」が無視されてきてはいたけど、改めて
User-Agent: BaiduMobaider
Disallow: /
User-Agent: Baiduspider
Disallow: /
User-Agent: Baiduspider+
Disallow: /
User-Agent: BaiduImagespider
Disallow: /
を設定してみた。
これで未だに「Disallow: /」が効かないのなら、またメールを送って、直接収集禁止設定をして貰おう。
Crawl-delayに従ってくれないと、サーバーへの負荷の制御が出来ないから、サーバー管理側としてはとても困る。
逆に従ってくれるのだったら、ROIがほぼ期待できなくても、制御可能範囲になるので収集して貰っても良いか、となるんですけどね。
P.S1: メール出してもすぐには止められなかったので(まあそれはいいのですけど)、httpd.confでブロックをとりあえずするようにした。
↓みたいな定義をすることで、apacheにアクセスが来たら403 Forbidden反応を返す事が出来ます。
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "BaiduMobaider bad_bot
...
<Directory />
...
Deny from env=bad_bot
</Directory>
アクセスまではそれでも来ちゃうから、本当はrobots.txtで完全に取得に来ないようになってくれた方が良いんだけど。
P.S2 メール出したけど今度は返信頂けないままerror_logにひたすらリクエストを弾いた記録が残っていっています。
119.63.198.201 - - [18/Jul/2009:04:53:15 +0900] "GET /tj/6_BDBDBCEBB9ACC2E5/ HTTP/1.1" 403 198 www.accessup.org 202 409 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.218 - - [18/Jul/2009:04:53:21 +0900] "GET /tj/6_BDB5B4A9A5E2A1BCA5CBA5F3A5B0/info.html HTTP/1.1" 403 211 www.accessup.org 223 422 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.249 - - [18/Jul/2009:04:53:27 +0900] "GET /pj/6_A5AEA5DFA5AEA5DFA5BA/i20060309.html HTTP/1.1" 403 207 www.accessup.org 220 418 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.229 - - [18/Jul/2009:04:53:33 +0900] "GET /pj/6_A5AEA5DFA5AEA5DFA5BA/20080322.html HTTP/1.1" 403 206 www.accessup.or219 417 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.253 - - [18/Jul/2009:04:53:39 +0900] "GET /pj/6_A5ADA5F3A5B9A5E9/200605271.html HTTP/1.1" 403 207 www.accessup.or216 418 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.221 - - [18/Jul/2009:04:53:45 +0900] "GET /pj/6_A5ADA5F3A5B9A5E9/20060421.html HTTP/1.1" 403 206 www.accessup.or215 417 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
119.63.198.212 - - [18/Jul/2009:04:53:51 +0900] "GET /tj/6_BDA9B8B5B9AF/related_deviation.html HTTP/1.1" 403 212 www.accessup.org 220 423 0 "-" "Baiduspider+(+http://www.baidu.jp/spider/)"
P.S3 メール貰ってrobots.txtを再度公開すれば...とあったけど、robots.txtを実験サーバー側で見えるようにして弾く設定にして暫く様子を眺めていたけどやっぱり収集が止まらなかったのでそのまま弾きました。
もしかしてBaiduspider+には改善があったのかもしれないけど、Baidumobiderというモバイル用クローラーの攻撃を止めるには能わず。
もうBaiduの対応には期待しないで、するとしたらいつかrobots.txtに従ってくれるようになることを期待してrobots.txtだけ見えるhttpd.confの設定をするしかないな。
error_logだけでも相当残るリクエスト数なので、どういう風に記述すればいいのか後で考えよう。
/コメントする(論客以外もコメント可能記事)/記名拍手 or 無名拍手:2個