| プロフィール | 私書箱 受/送/送済 | 評価履歴 共感[受/送] | DB作成履歴 生成/承認/受 | 書き物 [書く] | リンク集 登録有 |
| RSSリーダー登録 |
|---|
| RSS |
| 日記表示スタイル |
| ホームページ型/携帯 画像/動画/音声/リンク |
| 表示開始年月 |
| 日記内検索 |
| 分類 |
| 全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C++ 6.検索エンジンレポート 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.Berkeley DB 13.その他技術系 14.企画 15.スマートフォン 16.自分限定メモ 17.運用マニュアル(自分用) 18.技術系以外実用書 19.料理 20.ALEXA 21.アニメ 22.会計 23.プログラミング全般 24.設計書 |
| 挨拶 ここは accessup.org の管理人さん のページです。 サイトに関する お問い合わせは こちからから 日記の内容 日記では主に ・サイト運営/開発 ・検索エンジン情報 ・技術ネタ(Berkeley DB, Linux, Perl, サイト作成等) を扱っています。 お気に入りPV Blackmore's nightの Magical world (ロミオとジュリエットの歌) サイト内管理系ショートカット 1.定期更新処理 2.英語版Myページ 3.未処理削除提案 4.承認待ち提案 5.日々のタスクチェック 思い付きメモ [サイト作成での心構え] ・孤独死させない ・リアルタイムに変化させる 気に入った言葉集 [ビジョン] 無いものに 気付くことができる [対人] 士は己を知る者 のために死す [仕事] 日々1%の改善は 年37倍の改善 2人の日々1%の改善は 37x37=年1427倍の改善 組織の改善は大きい Noと言わなければ 優先順位は決定できない Noの言い方には色々ある ・優先順位 ・時間ができたら ・他人に依頼 ・次期にやる ・絶対駄目 [ビジネス] 必ず1位を取れるところで勝負 2位はつまりは敗北 [組織] 人が好きな人が必要 PMは方法論より チームに注力すべき 自己決定的であることが重要 [経営] 戦略は道標だから 敵や状況で変わらないもの にする(右往左往しない) 変えるのは戦略ではなく戦術 経営者は他は劣っても 熱意・情熱だけは最高 でなければならない [生活] 家族は自分が守るべき 最小の単位 良い習慣を身に付ける鍵は 何度も実践すること 現代の生活は時間の浪費 に満ちている [人生] 日々の生活の中で 目標を見失わないこと 補足 この日記の左メニューは Myページの 自分のページをカスタマイズ から設定可能 |
1. 文章目的
2. 計測において注意した点
3. 比較に使ったツール
4. 結果の読み方注意
5. 結果詳細
6. まとめ
7. 今後
Yahooがインデックスの拡張をしたと喧伝している。
また、サーチも、今までの分類型優先から、ロボット型有線表示に切り替えるようだ。
なので、状況を把握してみようと思う。
インデックスのサイズの比較というのは、巷でやられているように、単に簡単にキーワードを入れればできるものではない。以下の点に気をつけて、ここでは確認した。
1. ヒット数は大くても、それは端数が一桁にならない限り、推測で大きくしているだけだから、そういう検索で出るヒット数の比較は意味がない。
表示件数の上限、つまり、100件以下とかでの、実際の値の比較が、検索エンジンのインデックスの比較において、有意な価値のある数字となる。どうでも操作できる推測値で比較するのは、無価値である。
2. 全て表示の値ではなく、デフォルトで実際に検索結果に表示される件数を数えた。デフォルトで表示されるもの以外はあまりユーザーは使わないし、ドメイン制限の解除は、ぶれを大きくすると判断した。
3. 新しい話題系も、インデックスサイズを推定するという意味では、いまいち意味がない。それは新規ページ取り込み能力として、別に取り扱った方がいい。なので、質問には、ある程度「枯れた」質問を使った方がいい。少なくとも、新規話題は避ける。
4. 複合語は、それをバラバラに扱うか、くっつけて扱うかで、結果が違う。
精度を優先させているAskやYahooは、漢字の複合語では、Googleよりヒット数が減って見えるが、必ずしも、インデックスが小さいが故ではなく、論理式で、精度をとるか、広さをとるかの考え方の違いがある。
なので、なるべく複合語は避けて、And検索で行う必要がある。
比較には、最速一括検索
http://www.accessup.org/find/
のA+G+Yモードで、フレーム分割して比較してみた。
なお、もちろん、ヒット数は検索エンジンにおいては、一つの指標でしかなく、ゴミページは消す(入れない)ということが重要だし、実質的には、関連性がその価値を決める肝であることは、一応指摘させて頂く。
関連性が至上である以上、どう削るのかも、検索エンジンにおいては、大きな能力の一つであるからだ。
例えば、
「旭区 鶴ヶ峰 ホテル 観光 料金 アクセス 交通 年 平家」
で検索すると、Askでは検索結果なしで、GoogleとYahoo!では少しヒットがあるが、そのヒットは全てキーワードばらまき型の、スパムページである。これではヒットがあっても意味がないし、ノイズなだけです。
また、正確な値を出す為に、ヒット数が少ないものを選んでいるが、内容に関係なく、ひたすらページまで集めている方が大きな値はでるだろう。
更に、インデックスの更新の速度が遅かったり、しないことがヒット数の増加に結びつくこともある。
例えば、掲示板を多くとっていて、しかし、それで更新が遅い場合、現在のページにはその言葉はないのに、キーワード検索ではひっかかるという状況が起きます。
その為、ヒットといっても、そのヒットしたページのタイプが何であるのか、そして最終的には、その関連性まで見ないと、完全な比較にならないのだが、ここでは単にヒット数のみ見ているという、極めて一面的な比較であることを注記しておく。
A=Ask.jp
G=Google.co.jp
Y=yahoo.co.jp
"最速一括検索" "非常に便利"
5 / 4 / 2
ssh sftp scp 圧縮 暗号 putty shell 自動 パスワード
3 / 11 / 4
駒場 池 "駒場寮" 奥 橋 浪人
1 / 3 / 1
"BER圧縮" チューニング
2 / 0 /4
apache perl mod_perl ab registry ベンチマーク 秒
3 / 6 / 11
nutch java odin 検索エンジン
11 / 3/ 7
質問は心に浮かんだものを、純粋にその順にリストしてみました。
最多回数2回 Ask
最多回数2回 Google
最多回数2回 Yahoo
うーん、この程度じゃ、有意な差が出ませんね。
もっとやらないといけません。
ただ、ここから見えることは、質問によっては、どの検索エンジンが多く結果を返してくるかは、異なりえるということです。その一つの原因は、何を重きを置いてページを選別しているか、という違いが、一つの要素ではあるでしょう。また、以前のように、差が大きく見受けられる状況ではなくなってきたいるようなのは確かです。
また、結果を見ていると浮かび上がることとしては、その性質として、Pentiumのクロック数とSunのCPUのクロック数を比較するように、目立つ値ではありますが、必ずしもその数が優劣を示すわけではないということもあります(但し理解して使えば、役立つ値であることには間違いない)。
個別に状況を見ていきますと、検索エンジンの利用状況
http://www.accessup.org/kensaku/
でも、GoogleとYahoo!は、日替わりでトップを争っている状況ですし、現在かなり均衡している状況にありますね。これからも、どちらがインデックスサイズが大きい、いやこちらが、という喧伝のし合いは続くでしょう。必ずしもそれが品質を示すものではなくても、分かりやすさとしてその値を捉える人達がいるので(というか、ここまでのレベルはマーケティングメッセージとしては、一般層にはなかなか届かない)。
Yahoo!独自の検索エンジンYSTが出てから、一周年が経過しましたが、その位の期間で、張り合える状況にまで持ってきたことは、素直に驚きです。寄せ集めの独自の検索エンジンで、Yahoo!がGoogleに追いつくのは、きっと無理だとその前は思っていたのですが、実力を見誤っていたのと、意外と埋められる距離のところにGoogleがいたのだな、という印象があります。
正式ローンチからまだ一周年経っていない若いAsk.jpは、ヒット数より関連性に重きを置いているそうですが、段々ヒット数も増えてきているので、今後のヒット数の伸びにも、期待したいと思います。
今回は、軽いテストでしたが、これをもっと、高度に仕上げて生きたいと思います。
もっと多面的に行い、検証回数を増加させて、比較テストとしての検証精度を上げていきたいと思います。
To be continiued...
| <=次記事2005/08/30 シェル::~が付くファイルの消去 =>前記事2005/08/28 rsync::使い方 大分類が「検索エンジンレポート」の記事 記事全て |