2-/執筆者ページ/日記投稿
1. 2008/03/01 同日2番目 検索エンジンレポート > クローラー > パラメーターの値に勝手にURLを入れてクロールしていくスパム(?)」コメントする/記事編集/削除/共有分類に追加

1. スパムクローラー       
2. スパムクロールの目的は?  
3. もしもこれが外部リンク獲得の為だったら...           
4. ウェブサイトの運営者として    


1. スパムクローラー

ホームページのパラメーターに色々と勝手にURLを入れてクロールするやつを発見。       
...           
85.10.194.151 - - [29/Feb/2008:14:48:08 +0900] "GET /anime/suggest_site.asp?file=METAL%20GEAR%20SOLID%20PORTABLE%20OPS%60game&kind=game&location=http%3A%2F%2Fwww.municipioxii.it%2Fsunnyway%2Feheqebi%2Fjahibop%2F HTTP/1.0" 200 6341 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)"
85.10.194.151 - - [29/Feb/2008:14:48:09 +0900] "GET /anime/top_edit.asp?S_iC=http%3A%2F%2Fwww.psikolojikyardim.org%2Fetkinlik%2Finclude%2Feto%2Fnixaz%2F&lang=j&mode=direct&file=METAL%20GEAR%20SOLID%20PORTABLE%20OPS%60game&todo=%A4%B3%A4%CE%BA%EE%C9%CA%A4%CE%BE%F0%CA%F3%A4%F2%CA%D1%B9%B9%A4%B9%A4%EB HTTP/1.0" 200 549 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)"
85.10.194.151 - - [29/Feb/2008:14:48:09 +0900] "GET /anime/top_edit.asp?S_iC=http%3A%2F%2Fsahel55.com%2Farticles%2Fomaduro%2Fkimumid%2F&lang=j&mode=direct&file=METAL%20GEAR%20SOLID%20PORTABLE%20OPS%60game&todo=%A4%B3%A4%CE%BA%EE%C9%CA%A4%CE%BE%F0%CA%F3%A4%F2%CA%D1%B9%B9%A4%B9%A4%EB HTTP/1.0" 200 549 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)"
85.10.194.151 - - [29/Feb/2008:14:48:10 +0900] "GET /anime/top_edit.asp?S_iC=http%3A%2F%2Fwww.channelnewsperu.com%2Fimagenes%2Fpublicaciones%2Ffotos%2Fnepicu%2Fegul%2F&lang=j&mode=direct&file=METAL%20GEAR%20SOLID%20PORTABLE%20OPS%60game&todo=%A4%B3%A4%CE%BA%EE%C9%CA%A4%CE%BE%F0%CA%F3%A4%F2%CA%D1%B9%B9%A4%B9%A4%EB HTTP/1.0" 200 549 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 1.1.4322)"
...
クロール頻度も高い。    
アクセス元は 
name = 85-10-194-151.clients.your-server.de  
なのでドイツ。           
IPアドレスで検索してみると、世界でも話題になっている模様。         
http://www.seo-blackhat.com/article/someone-is-scraping-me.html    
ここではそこまでなっていませんが、1秒に20リクエストとか投げるようなことをしていたり、支配下のIPアドレスが相当の複数に渡る模様で、ウィルスに感染したパソコンから投げられているのではないかと言われています。


2. スパムクロールの目的は?

・URLを宣伝したいのか(例えばリンクを含むページが出来る結果になれば、所謂検索エンジンが評価する外部リンクが自動的に稼げる
・それともURLに嫌がらせをしたいのか(周り巡って))
・そもそもウィルスには大した目的が無い(単純な愉快犯)なのか
と、意図については色々憶測が巡っています。
ただ、こんなので外部リンクを稼ごうとしているのだったら、ある意味スパムの世界ってのは進んでいるなぁ(よくそこまで考えるなぁ)、と感心しますね。
リファラーばら撒きスパムはシンプルなレベルで誰でも思いつくでしょうが、まさか投稿までしてしまおうとするなんて(で偶然投稿できてしまって、リンクも生じれば一丁上がり/自動で大量に投げているので、偶然出来るところがあれば良い)。


3. もしもこれが外部リンク獲得の為だったら...

(正確には外部リンク獲得の為かどうかは分かりませんが)やはり検索エンジンの動作原理を知られると、悪意のあるユーザーの大量な自動的な欠陥付きは、面倒な問題になるな、と思いました。
検索エンジンが世のトラフィックの多くに影響を与えるようになり、社会的な役割としてその機能がある程度オープンであることがある程度重要になってきていますが、そうはいってもどこまでその仕組みを公開して良いかは、常に悪意のユーザーが想定できる以上、よく考えないといけないですね。
こうした自動的な投稿は、最近日本でもブログを中心にはやっています。
それはスプログといいますが、外部から文書をとってきて、部分部分をつなげてでたらめな文章を作って、検索エンジンに引っ掛けるという仕組みです。
おかげで、日本のブログ検索の多くは、スパムに汚染されていて、使い物にならないものが多いと言えるでしょう(ブログ検索専門のTechnoratiとかは検索結果が死んでいる)。
恐らくはMovalbe Typeという画一的なブログのソフトをベースにしているから、その弱点を付かれてしまうわけなのでしょうが。


4. ウェブサイトの運営者として

また、ホームページの製作者としても、プログラムに動作に関係なく勝手に値を入れてくる「スパム」の存在について、よく考慮しておかないといけないなと思いました。
入力される値がURLでは大した害はないですが、SQLインジェクションやシステムコマンドをガンガン片っ端から入力していくプログラムが出来てもおかしくないですからね。
色々データを入力するようなことほぼ起きないだろうと大丈夫だろうと思っていても、相手が自動的なプログラムで作ってきたら、片っ端から全て「テスト」されることになるので、それを想定するとこっちは100%安全でパラメーターを設計しないといけないということになります。
そうでないとSQLインジェクションで侵入された「価格.com」のような事態になってしまうわけで。
原理的に言えば、値を受けるメソッド(関数)に、安全に対する配慮を入れた処理を組み込み、全ての値はそこを通すべきなんでしょうね。


[コメント有り]
2-/執筆者ページ/日記投稿


Myページ 作品DB(友達招待) 最速検索