1. 最近目立つ余計なクローラー
2. Baiduspider
3. IRLbot
昨日のクローラーのアクセスの状況では、以下の見慣れないクローラーが目立った。
4位: 17,696回: Baiduspider ( http://www.baidu.com/search/spider.htm)
5位: 5,081: IRLbot/2.0
Baiduspiderの方は、robots.txtで弾く設定をしたのだが、それを反映した行動をしてくれなかったので、httpd.confで弾くようにした。
Baidu.comは、中国のNo.1検索サイトではあるが、日本語と英語の当サイトをクロールされても、価値はないだろうと判断した。
IRLbotは、テキサスA&M大学のインターネット研究所のクローラーであるようだが、研究用のクロールなどは当サイトにとっては価値がなく、その割にアクセス数が目立つので、とりあえずrobots.txtで弾く設定にしてみた。
設定に従ってくれるかは、これから観察。
ちなみに、クローラー元の説明ページは、以下のURL(英語です)。
http://irl.cs.tamu.edu/crawler/