| プロフィール | 私書箱 受/送/送済 | 評価履歴 共感[受/送] | DB作成履歴 生成/承認/受 | 書き物 [書く] | リンク集 登録有 |
| RSSリーダー登録 |
|---|
| RSS |
| 日記表示スタイル |
| ホームページ型/携帯 画像/動画/音声/リンク |
| 表示開始年月 |
| 日記内検索 |
| 分類 |
| 全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C++ 6.検索エンジンレポート 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.Berkeley DB 13.その他技術系 14.企画 15.スマートフォン 16.自分限定メモ 17.運用マニュアル(自分用) 18.技術系以外実用書 19.料理 20.ALEXA 21.アニメ 22.会計 23.プログラミング全般 24.設計書 |
| 挨拶 ここは accessup.org の管理人さん のページです。 サイトに関する お問い合わせは こちからから 日記の内容 日記では主に ・サイト運営/開発 ・検索エンジン情報 ・技術ネタ(Berkeley DB, Linux, Perl, サイト作成等) を扱っています。 お気に入りPV Blackmore's nightの Magical world (ロミオとジュリエットの歌) サイト内管理系ショートカット 1.定期更新処理 2.英語版Myページ 3.未処理削除提案 4.承認待ち提案 5.日々のタスクチェック 思い付きメモ [サイト作成での心構え] ・孤独死させない ・リアルタイムに変化させる 気に入った言葉集 [ビジョン] 無いものに 気付くことができる [対人] 士は己を知る者 のために死す [仕事] 日々1%の改善は 年37倍の改善 2人の日々1%の改善は 37x37=年1427倍の改善 組織の改善は大きい Noと言わなければ 優先順位は決定できない Noの言い方には色々ある ・優先順位 ・時間ができたら ・他人に依頼 ・次期にやる ・絶対駄目 [ビジネス] 必ず1位を取れるところで勝負 2位はつまりは敗北 [組織] 人が好きな人が必要 PMは方法論より チームに注力すべき 自己決定的であることが重要 [経営] 戦略は道標だから 敵や状況で変わらないもの にする(右往左往しない) 変えるのは戦略ではなく戦術 経営者は他は劣っても 熱意・情熱だけは最高 でなければならない [生活] 家族は自分が守るべき 最小の単位 良い習慣を身に付ける鍵は 何度も実践すること 現代の生活は時間の浪費 に満ちている [人生] 日々の生活の中で 目標を見失わないこと 補足 この日記の左メニューは Myページの 自分のページをカスタマイズ から設定可能 |
1. 事件のあらまし
2. でも答えは簡単
3. インデックス対象の時期特定の理由
4. 検索エンジンの仕組みのリマインド
5. 一応他の語でも検証してみた
6. MSNについてはタイミング的なものも考慮しておく必要はある
7. 小さいところにできて何故大手ができないのかの理由
8. GoogleはGoogleでどちらにせよ質の問題がある
9. 画像検索自体の順位付け
10. accessup.orgへの上記評価の反映
11. 「初音ミク」に関する検索結果の日々のトレース (その後の展開はこちら)
12. 蛇足1. 気付いたこと(Googleの画像件数のヒット件数滅茶苦茶)
13. 蛇足2. 周期の秘密(検索エンジンの行動を考えるにあたって参考になるベースの知識)
14. 蛇足3. アダルトフィルターについて
15. 蛇足4. 形態素の単位がずれているってことはないの?
16. 外部の参考資料紹介
巷では初音ミクの画像が大手検索エンジンにて検索できないことが、
陰謀説として盛り上がっています(TBS問題とかがあったから)。
http://www.itmedia.co.jp/news/articles/0710/18/news040.html
http://gigazine.net/index.php?/news/comments/20071018_vocaloid2_image/
http://gigazine.net/index.php?/news/comments/20071018_vocaloid2_image_tel/
画像検索は完全領域外なので(中の人になったことないので = 範囲外だから答え書いても良いよね?という意味です)答えを書いてしまうと、「検索結果に出ない組」の画像検索のインデックスは2007年8月31日(=「初音ミク」の発売日)以前に収集した画像を検索対象にしているからでしょう(無いものは検索できない)。
「初音ミク」という言葉自体、発売日前にほとんど書かれるものではなかった為、8/31(発売日)前に検索対象化できる形で言葉ときちんとセットで提示されていた画像がそうそうあったとは思えません
(ブログ検索結果の期間をづらしてそう判断しました: 検索結果/期限が過ぎると見えなくなるでしょうが)。
ちなみに、↑の検索結果の一番初めのブログ記事(07/12 メディアファージ事業部 ブログ)を書いた人は、「初音ミク」の中の人の一人のようなので、そこ(07/12)からが理論的には「初音ミク」を検索対象にするチャンスが検索エンジンに与えられ始めた時期になります。
ただ、仮にその「内部情報出し」後の時期をクロールしていても、あくまで激烈にブレークしたのはリリース後のニコニコの展開があったからなので、検索エンジンが「初音ミク」という形で認識できる画像はなかった可能性は高いでしょう。
画像検索は、ホームページ上の記述と画像を結びつけることで可能にするものなので(従来のは/Flickrのようにタグ情報有りは別)、レラバンシー(関連度)を高めるためにはaltのような情報をきちんと入れてある画像が必要になります。
ただ存在するだけでは検索対象になりません(ホームページのタイトルでもO.K!等、確度を緩くすると網羅性は上がるが、レラバンシーは落ちる / ここに各画像検索の思考レベルの差が現れる)。
その為、ある程度の画像投稿数(盛り上がり)が、キーワードと綺麗かつきちんと結びついた結果を出すには必要になるのは事実です。
ただ、確実なのは、初音ミクは9月に入ってからは漏れようがない位の大ブレークをしたわけで、少なくとも8/31以降については、認識できる形式の画像がなかったということはできません。
よって、今検索結果に出せていない画像検索エンジンは、少なくとも直近約1・2ヶ月以内のものは検索対象に出来ないだろう、と結果が導きだせます(もっと長い期間無理かもしれませんが)。
ブログ検索など投稿されてから1分以内の記事も検索できるようなエンジンが出てきて皆忘れてしまったのかもしれませんが、
クロール→検索対象化→検索結果のQA(ここでミスが発覚すると世界中のウェブサイトのクロールからやり直し)→リリース
のサイクルは数ヶ月以上かかるのは世界レベルで収集する検索エンジンでは昔は常識でした。
ヤフーの画像検索のインデックスの更新は半年に一回とか言われていた位ですので、最近1・2ヶ月内に登場した画像?、そんな新しい画像は検索できないよー、というのは何ら不思議なことではありません。
今まで通りです(改善されてませんね、というだけ)。
Googleについては、関係無いものばかりとはいえ一応結果を返してきてしまっているので、状況は詳しく見ないとわかりません(これは周期以外の問題もありえる)。
ただ、一昔どこの画像検索が良いのかな、思ってみてた時には、デッドリンク率が高く(他も高いですがGoogleは頭抜けていた)、画像検索のインデックス古いんだな、と思ってたものです。
Googleの画像検索が一番デッドリンク(Not Found)率が高く、当時は20%超えていました(Yahooや当時はあったNaverの倍)。
あくまで当時の話になりますが、収集した時のページの20%以上がNot Foundになるということは、どれ位か分かりませんが、相当古いものが検索対象になっていたということです。
月日が経っているので、今は改善しているでしょうが、当時はそんな状態だったので、最近一ヶ月内のが少なくともまともに検索出来ないの位、これまた全然驚きじゃないです。
ただ、外部から問い合わせられても、他検索エンジンと比較されている以上、検索結果出せない会社さんは、そこまでのこと(他より古いのしか検索できないこと)は外には言いたくないでしょうね。
結論としては、結果を出せる検索エンジンと出せない検索エンジンの差は、規制・削除されたというわけではなく、画像検索結果のフレッシュさの差ということです。
騒動の構造は、当然検索できるだろう、という皆の期待値が(ウェブ検索をベースにした考え)、今回駄目だった画像検索エンジンの性能を上回っているということでしょう。
(10/22での調査なので、状況が変わってしまっている恐れはありますが)
Ask.jpの半年のブログ検索キーワードをさかのぼれるデーターベースで目を付けたのは
「相関図ジェネレータ」
09/27に登場しています。
http://ask.jp/trend/keyword.asp?date=2007/09/27
これで検索してみると...
検索結果
Yahoo: 0件(正確に言うと2件出ているがこのキーワードの指すものではない)
Goo: 16件 (O.K!)
Googole: 4,340件 但しデタラメばかり。テキストにヒットさせながらもデタラメな画像を出すというのが、最新の画像に対する対処なのか?テキストの検索対象化と、画像の収集/結びつけの周期(こいつが遅い)が別なのかもしれませんね。
MSN: 145件 (O.K!)
PicSearch: 0件
初音ミクと同じようなかんじの結果で、Yahoo, PicSearchが収集時期が最近現れた語に対応できていない組、Goo, MSNが収集記事があっている組(フレッシュ話題対応可)、Googleがテキストだけ合致していて画像は滅茶苦茶組、と同じような結果ですね。
Googleのテキストと画像の複雑骨折的な結果は、予想の斜め上かつ中の人じゃないと正確な理解が出来ない状態ですが、同じような結果なのでほぼ想定通りです。
次いで検索してみたのは「時津風部屋」
Yahoo: 95件
Goo: 238件
Google: 4,050件(相変わらずノイズが多いが...)
MSN: 171件
PicSearch: 27件
これでやるとYahooとGoogleも、結果がちょっと出てきます(Goo / MSNに負ける数ですが)。
ニュースは新語の発生源である故に、ウェブ検索でも特殊なクロールのされ方がされていますが(その日のうちに検索できるようになったりする)、画像検索の方も全体のメインインデックスとは別にニュース専用の別周期で早く反映できるパーティションがありそうな雰囲気ですね。
「内藤 亀田」
Yahoo: 2件 <= ニュースサイトからのみ(試合前のものですが)
Goo: 63件
Google: 9,450件 <= Reutersのようなニュースサイトのみ画像はあっている模様
MSN: 169件
PicSearch: 0件
上と同じようなかんじですね。
Googleは少なくともニュースサイトに掲載された情報については、画像格納が別周期で動いている模様です。
でもその他は滅茶苦茶でヒット数の多さが、単にノイズの多さに化けてしまっています。
PicSearchはフレッシュネスに対する工夫が無さ過ぎですね。。。
「"こどもの時間第一話"」
検索結果
10日前に出てきた話題です。
http://ask.jp/trend/video.asp?date=2007/10/12
Yahoo: 0件
Goo: 2件
Google: 423件(スクールデイズとか相変わらず滅茶苦茶な画像ばかりですけど)
MSN: 12件
PicSearch: 0件
フレッシュな話題にはMSNを是非どうぞ、という結論ですね。
MSNとGooはフレッシュネスに強い模様ですが、その中で序列をつけるとしたら、
MSN > Goo
の関係が成り立つのかも(定期的に定点観測しないと分りませんが)。
今回の騒動はMSNの日本のウェブ検索の評価結果は
Yahoo > MSN > Google
という自己診断プレスリリース「Googleの検索精度はMSNに劣る――MSが自社計測もとに指摘」
http://headlines.yahoo.co.jp/hl?a=20071017-00000002-zdn_ait-sci
と重なったので(それが各検索エンジン結果の比較が始まるきっかけだったので/TBS問題もありますが)、結果的にMSNの新インデックスのリリースが近く、インデックスの内容が比較的新しい状態で、MSNにとって有利な「時期」に出されたという要素もMSNの良い結果にはあるかもしれません。ただ、どちらにせよ、9月の画像を10月にインデックス化して出せるということは、フレッシュネスの観点で有望です。
なお、別の話になりますが、MSNが自分で自分を褒めることはそのまま信頼はできませんが、日本においては、検索結果の質で、「Yahoo > Google」というのが、検索専門の第三者により結論付けられたのは、面白いことです(私も同じような結果になるテスト結果をhttp://find.accessup.org/kensaku/で何度か発表してきましたが)。
ちなみに、ここで、何故大手ウェブ検索の方が、gooとかlivedoorのようなとこと異なり(gooやlivedoorは日本のブログをソースにしている/ブログ検索は自社製だから)、それが出来ていないのかというと、
ウェブ検索用にクロール(世界中だから1サイクルに時間がかかる)
↓
そこから画像検索用の文章を抽出
という、画像検索に集中していない集め方をしているからじゃないかな、と思います(画像検索は中の人じゃないから推測)。
ウェブサイトを集めてから、imgタグを分析して画像を引っこ抜きます。
ウェブ検索用文章収集ついで(派生して)に、画像検索用のインデックスを作らせてもらうというのは、大量のアクセスをウェブサイトにしかける検索エンジンとしては、合理的な選択だと思います。
なので、一般的に、ウェブ検索のインデックス更新サイクルよりも画像検索のインデックス更新サイクルの方が時間がかかるでしょう。
ただ、それに加えて、画像共有サイトも検索対象にしたり(そこはタグ付けがされているので簡単に画像検索対象にできるし取得に無駄がない)高速にインデックス化するブログ検索の仕組みを活用して、そこは別サイクルで回して結果に混ぜて出せるような小型パーティッションを作っていたりしたら、最新の結果が出ないことで規制されていると誤解されるような問題は起きなかったのでしょうが。
要するに、ウェブ検索と同じで、メインインデックスとは別に、ブログやソーシャルタグを対象にした小型の高速更新インデックスも混ぜておけば、対象が巨大なウェブ検索会社でも解決できる問題です。
なお、フレッシュネスというのは、検索結果の評価においては一部の要素でしかないので、それをもってどうこうということはないのですが、ただ、結果を出した上で、その結果が滅茶苦茶なものばかりのGoogleは、検索結果について根本的に改善しないといけないところがあるんでしょうね(画像をひっかける条件がゆる過ぎなのか、バグなのか / 複数の語で見たところ、どうもテキストはウェブ検索と同じようにかなり早く当てれるようになるが、画像はニュースのようなウェブでも特別なクロールをしているところ以外、周回遅れという雰囲気/よって滅茶苦茶な結果が見える)。
ちなみに、初音ミクだけを見ると、
MSN > Goo > Yahoo or PicSearch(ask.jpが借りている) > Google
という結果になってしまいますが、ある程度時間が経てば(格納されれば)、
より大きい領域から集めているYahooやGoogleの検索可能件数がMSNやGooより多くなります。
なので、それだけの問題をもって、MSNはGoogleやYahooより優れている、と言えるわけではりません(ただフレッシュネスの面でMSNの画像検索が強いのは分かりました)。
むしろ、画像検索はユーザーインターフェースが検索エンジン毎にかなり違うので、それの出来がどうなっているかが大きく利用経験を分けると個人的には思います。
で、私が画像検索について順位をつけるとしたら、
| 1位 | Yahoo | 画像をクリックしたら画像が表示される唯一つの「画像検索」エンジン。世界最大の画像共有サイトFlickrを傘下に持っているのが大きい |
| 2位 | goo | 今回ので気づいたけれども件数はともかく収集したものの反映が速い組だから |
| 3位 | MSN | フレッシュネスさなど内容が評価できるのに、ユーザーインターフェースが使いづらい。またクライシスコアで比較して気付いたことですが、同じ画像の認識/除外する能力が低い(もしくは無いのが痛い) 検索結果 |
| 4位 | 初音ミクだけならフレッシュネスの問題だから...とそんなに思いませんでしたが、他も見てみるとノイズが惨憺たる状況だったので(フレッシュ語で試したとはいえ)、順位を下げました。ヒット件数があまりにも信頼できないのも痛いです。とりあえず史上最強の画像検索という文句については考え直した方が良いかも。 | |
| 5位 | PicSearch | 画像検索専用の会社だが規模が競合に比べて足りない(MSNやask.comから契約切られちゃったしこれ以上の投資は不可能か?) |
これに従って、画像一括検索と、画像集ページの順位と構成を変えてみました。
・画像一括検索
検索結果
↑初音ミクの画像検索結果 / いつインデックスが更新されるのか、今後の監視に使ってみると良いかと思います。
検索結果
を使って日々の変化を観測してインデックスの中身の変化をトレースしていきます。
... 10/21 Googleのヒット件数が半減。といってもミスマッチばかりは変わりませんが。↓にも書いていますがgoogleの約って適当だなぁ... 10/22 Yahoo!が微妙な件数ですが少し出るようになりました。 外れているのも結構あるし、件数から見るとまだ出始め、といった感じですね。 かなり最近のもあります。 Yahooの検索結果の不安定さはロードバランサーの先のサーバーの状態の違いによるものと思われます 件数が少ないのに今回のミク消失騒動の画像を複数含むというアンバランスさを考えると、通常の周期でメインのインデックスが更新されたわけではなさそう(メインインデックス更新の規模・周期とは別のもの)。 画像の元のソースはブログばかりで、 http://api.plaza.rakuten.ne.jp/komuramaisblog/rss/ http://pocketgraphic.blog109.fc2.com/?xml http://www.akibablog.net/index.rdf のようなRSSばかりソースになっています。 Livedoor、GooとかブログのRSSをソースとした高速反映用小型検索パーティッションなのか、それとも指定したURLを緊急クロールして混ぜれるパーティションのか分かりませんが、画像検索のパーティション構成も一つの巨大なものだけではなさそうですね (そっちのパーティッションを騒動に押されて緊急更新したのか...私が↑に書いた1タイプのインデックスだけじゃない周期/性質別のインデックスからも結果を出すという解決策をすでにYahoo! Japanは仕組み上はもっていたということですね(といってもリクエストベースの手動機能ではその効果は微々たるものですが / これからどの間隔でヒット件数が変わっていくかに注目です)。 Googleさんは件数が多いけれども、画像はまだ滅茶苦茶です(新語状態のまま)。 10/23 せっかくなので、goo, msn, picsearchも計測対象に入れました。 Googleはヒット件数は相変わらずランダムに動くかのような挙動不審ぶり。 こうして精査されてしまうと、何事も大きくみせかけれれば良いというものではないですね。 変化を見る上で考えることは、ガンっと一気に変わるのがメインインデックス更新、ちょびちょび変わるのがサブインデックス更新。 そうした性質が見えればなと思います。 Googleはヒット数の変化が参考にならないので、結果を眺めて判断するしかない模様ですが。 10/23夜 Googleの1ページ目に9/16個出る。 ITMediaさんも今度は余計な推測を入れずに事実だけを報道しています。 http://www.itmedia.co.jp/news/articles/0710/23/news126.html ただ、「復帰」という言葉だと、元々「初音ミク」という画像がきちんと検索できていたことを意味していますので、「NGワード」に続く虚偽記事なわけではあるのですが、まあ最初に「消失」と間違えた事実を書いてしまったからには、最後まで間違い続けるという姿勢もありなのでしょう。 但し、その後30ページ目(画像にして540個目)までめくってみたけど、合致する画像が全く出ないという画像の検索結果としては逆に不自然な結果。 1ページ目に9/16出ながら次のページから全然出ないというのが、検索エンジンの通常動作としてありえない。 あと、特徴として「選ばれた」画像以外には、「初音ミク」の前後に文章が付いているけれども、選ばれたものには付いていない。 altタグに"「VOCALOID初音ミク」体験版が付属する「DTMマガジン」"と付いていても「初音ミク」とだけ文字が表示されているのが特異。 補足:Googleの画像検索にニュースパーティッションの存在が確認されました。そこに入れて何とか対応した模様(「初音ミク」で出てきているサイトは必ずしもニュースサイトではありませんが)。メインパーティションの遅さを今回はニュースパーティションと手動の何らかの操作で無理矢理解決させたということですね。推測は正しかったということでFA。GoogleもYahoo!もウェブ検索だけでなく、画像検索も多重構成のインデックスが確認されたということで(但しメインインデックス(つまりは全体)のフレッシュネスが遅いことは変わりない)。 「相関図ジェネレータ」「"こどもの時間第一話"」などはyahoo, google共にまだ結果を出せていない(yahooは0件/googleは出鱈目画像)。 10/24 Yahoo!は株主総会でこの件について質問されて、 http://www.itmedia.co.jp/news/articles/0710/24/news091.html ・「NGワード」は設定していない <= ITメディアの推測否定 ・機械的な問題。収集対象になっていなかった <= つまりは時期的な問題でメインの自動クロールの周期の時には検索対象にできなかった(出来るものが無かった)の肯定 結局、この件については単なる大きな空騒ぎになりましたが、その過程でITメディアというメディアが、匿名掲示板やら、匿名技術者やらの情報をそのままに「消えた」、「NGワードではないか」などという言葉そのまま取り上げたのが大きな問題だったと思います。 ITメディアの今回の件に関する記事履歴(赤の部分が虚偽/ミスリードさせる「部分切取」/「推測」言葉)
中の人の発言を疑うのはもちろん必要でしょうが、書く側が状況をよく理解していない状況で(しかも匿名の外部の技術者の推測でそれを上書きするということは)、取るべき手段ではないと思います。 中の人にコンタクト出来る(根拠付けを通常の人が得られない方法で出来る)という優位な立場にあるのですから、それはきちんと活用して頂きたいです。 結果的にいえば、デマの拡散によるデメリットだけではなく、色々な事実の情報も拡散しているので、必ずしもデメリットばかりではなかったとは思いますが、そうした溢れる情報の中で「これが信頼に足る情報」とある程度のお墨付けすることができる立場にあることが大手メディアさんの存在意義の一つなので、その立場の有意な面をもっと意識した確度の高い(少なくともデマになることは排した)記事を書いて頂きたいと思いました。 10/26
匿名掲示板で盛り上がっているとしてそれを記事にして、ずっと「編集説」をとってきたITメディアさんでしたが、最後の記事は余計な言葉がなくて良かったと思います。 匿名掲示板の説をそのまま採用するのではなく、こういうインタビューの裏付け記事を紹介してくれることにマスコミの意味がある。 そうでなければ、匿名掲示板やブログの1参加者としていれば良い(それ以上の価値がない)記事になってしまいますから。 以上、「初音ミク」が画像検索の結果から「消えた(←本当は消えたのではなく元からいなかっただけなのですが)」騒動終了までの流れでした。 |
Googleの画像検索の結果が、「らき☆すた」で検索すると、時によって約 715 件と出てきたり、約 27400件と出てきたり。
それでいて検索結果が同じだったり。
「約」をつけているといっても、715件と27400件って差有りすぎでしょ。
一体全体どれ位このヒット数というのは信頼できるんだろう?
なんかGoogleの画像検索って品質管理緩いですね。。。
715件
27400件
ちなみに、「約」とは、本当は数えていないよ、ということを意味するので(=推測数字)、検索エンジンの収集力を測る時には、ヒット数が少ないもので比較しないといけません(1000ヒットを超えるもの/検索結果上で確認できないものでは無意味)。
そうでないと、検索エンジン側が、虚勢を張って、大きい数字が出るように推測値のアルゴリズムを作って、利用しているかもしれないので。
古いですが2005年にそういうことも踏まえてYahoo!とGoogleを比較した記事。
今振り返るとそんな昔から検索結果の質の逆転が起きていたんですね。
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20051120.html
ちなみに、一番最近にYahoo!とGoogleを比較した記事はこちら
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20070126.html
・検索エンジンによってクロール→解析→インデックス化→QA→リリースの周期は異なる
・検索エンジンの結果に出てくるのは一つの結果だけれども、その下には別々の周期のインデックスが存在しえる(そういう構成で作っているところなら)。メインインデックスは巨大な時間がかかるけれども、特定目的のインデックスは遥かに短期に回ったりする。うまく組み合わせることで、規模と見かけのフレッシュネスを実現できる。フレッシュネスの判断には、特定領域(インデックス)だけ新しいのか、メインインデックス自体が新しいのか(こっちは主にNot found率や存在数で見極め可能)見極めることが必要
ちなみに、アダルト語/画像は見せ方については特殊な処理があり、画像自体にアダルト判定がかけられていて、検索パラメーターの投げ方によって結果が変わります。
これについてはBaidu.jp(百度)のデフォルト状態での緩さは有名ですね。
baidu.jpはウェブ検索としてはいまいちだけど(accessup.orgもbaidu.jpのクローラーを現在弾いています)、アダルト画像検索として利用者数を結果的に稼いでいます(アダルトフィルターOFFがデフォルト状態なのか、無いのか)。
http://www.alexa.com/data/details/traffic_details?url=http%3A%2F%2Fbaidu.jp%2F
| image.baidu.jp | 81% |
| baidu.jp | 19% |
初音
という言葉は辞書語にあり、検索結果のヒットを見ると、既に登録されているようです。
"初音"のヒット件数 >>>>>>>>>>>>>>>>>>> "初 音"のヒット件数
なのでインデックスを作った時と、現在の検索側の辞書がずれているということはありません。
Google内部の人がGoogleのクロール周期の進化とインデックス構造の多層化について語った内容
http://www.mattcutts.com/blog/minty-fresh-indexing/
2000年の頃はウェブ検索は3・4ヶ月以上の時間をかけてインデックスを更新していたという話。
その後ウェブ検索は更新タイミングがどんどん早くなっていきましたが(正確に言うとフレッシュインデックスの割合が増えた)、特に収入に直結するわけではない画像検索は、かなり更新周期という面では取り残されているということですね。
| <=次記事2007/10/19 百度(Baidu)::Baidu(百度)、中国全土で検索エンジンをハッキング =>前記事2007/10/13 Firefox用ステータスバーSparkyの紹介 & やっぱり生き残りそう 大分類が「検索エンジンレポート」の記事 記事全て |