[管理人さんのサイト開発・運用報告+αの書]
比較:サイトの利用状況比較の公平な指標とは & Google Ad Planner(Google Trends)の精度
[携帯版(QRコード)] 総閲覧回数:1,414,620回 / 日記拍手:373

連絡は私書チャット、DB外ユーザの方ならメールTwitterMixiFacebookで可能です

アクセス記録[推移 / PV内訳(過去1日 / 過去1週間) / 外部アクセス元 (昨日 / 過去1週間) / ログイン論客足跡]
プロフィール私書(メール)
//送済
評価(一覧/)
投票/共:/
ファン登録
OP/ED
DB構築()
書き物
[書く]
攻略記事リンク集
My Play List

RSS購読
RSS
日記表示スタイル
リスト/携帯(QRコード)
画像/動画/音声/リンク
表示開始年月
日記内検索

分類
日記の主な内容
サイト運営/開発
検索エンジン情報
・技術ネタ(Berkeley DB,
Linux, Perl, サイト作成)等

自分その他
My English Blog
Twitter
皆声ブログランク

サイト管理
全まとめ
サーバー管理
定期処理状況
開発予定
削除提案
作品追加依頼
OP/ED追加依頼
OP/ED not found
作品提案承認欄

格言 fromスクライド

この世の理は即ち速さ
20年かければ馬鹿でも
傑作小説を書ける

助けられたら助け返す
それが俺のルール

強くなるには
一番弱い考えをする事だ
そしてその考えに反逆する



チャット>開発/運用/質問


重要タスクメモ
・StatNumDBのリリース
・CGI::Accessupの公開
・lib1stclassの公開
・libbdbwrapperの公開
・ユーザ数上限問題対応
・ディスクフル問題対応
・文字サイズの可変化
・デザインCSS化
・HTML標準の適用
・バックアップの多段化
・ログインのセッション化
・暗号化推進
・シリーズ化対応
・ソーシャル対応推進
[貰ったコメント数] [送信コメント数]
<=新記事2009/05/27 Windows::Vista Service Pack2がリリース
=>古記事2009/05/23 OP/ED系の拡張

1. 2009/05/25 ALEXA > 比較:サイトの利用状況比較の公平な指標とは & Google Ad Planner(Google Trends)の精度」
[この書込みのみ表示(記事URL紹介用) / 編集 / 削除 / トラックバック送信 / 共有分類に追加(タグ付け)]拍手:2個

1. サイトのユーザー数の「公平」な指標とは
2. 分析ツールの精度検証の為まずaccessup.orgの1日あたりのユニークIP数公開
3. 今騒がれているGoogle Ad Plannnerはaccessup.orgで7倍のずれ
4. Google Ad Plannnerの精度の悪さとその特性について考察
5. 解析でのユーザーの属性について


1. サイトのユーザー数の「公平」な指標とは

アメブロPV水増し疑惑などが騒がれていますが、要するにサイトの規模を公平に測るには、PVはそもそも使えないというだけのことです。
横並びの比較に使えるのは、どこのサイトにとっても変わらないもの、即ち1日の間でのユニークIP数です。
どのサイトでも全く同じ条件での比較出来る唯ひとつの条件です。
勿論携帯ユーザーについてはIPが相当数重複するのでほぼ切り捨てに近い形になりますが、PCサイト間の比較においては、ユニークIP数での比較が一番妥当でしょう。

学校などからのアクセスや、家庭からのアクセスなど、複数人が後ろにいる場合でも、それは1 IPになってしまうので、ある程度は近似できるとはいえ、どうしても本当のユニークユーザー数よりも小さい値になります。
それでも、この数字だけは、必ずどこのサイト間でも公平な条件での横並びの比較が可能な、誤魔化しが利かない最小となる本当のコアな数字になります。
ただその性質上中々公表に踏み切っているサイトはほとんどないと思います。

なお、計測の期間については、ユーザー数の発表では企業側は1ヶ月の間での合計を好んで発表しますが、1ヶ月とかは1ヶ月の期間も月によって異なりますし、またその計算方法が月を通してのユニークIP数なのか、1日毎のユニークIP数の積算なのかも分からないので、1日の間でのユニークIP数で比較しないとそこも「工夫の余地」が入ってしまうので、そこを明確にしない限り駄目です。

ちなみにPVの情報は広告主向けとユーザー向け情報では価値は違うでしょうが、アクセスカウンターとしてユーザー向けに提供する数値としては出来るだけロボット型検索エンジンの収集を弾くようにしてあげる仕様の方が良いと思います。
そうでないと記事の投稿などユーザーの努力と関係無くPVが上がってしまうので、その点で不利益を与えてしまうと思います。


2. 分析ツールの精度検証の為まずaccessup.orgの1日あたりのユニークIP数公開

1週間前の日、つまり一週間前の日曜日のaccessup.orgドメイン全体の利用者数をIPベースで公開すると、82,391 ユニークIPでした。
なお各ドメインでの重複IPは1IPとし多重カウントしないようにしてカウントしています。
各ドメイン毎の分布は一応以下の通り。
chat.accessup.org25 ip128 views
en.accessup.org1,102 ip14,943 views
en2.accessup.org5 ip5 views
find.accessup.org2,814 ip34,969 views
find2.accessup.org2 ip111 views
log.accessup.org4 ip4 views
mkpasswd.accessup.org31 ip129 views
music.accessup.org1,225 ip13,886 views
music2.accessup.org17 ip141 views
rss.accessup.org538 ip3,673 views
www.accessup.org78,242 ip382,409 views
www2.accessup.org7 ip46 views

ちなみにaccessup.orgドメインではありませんが、ブログ解析・検索エンジンの皆声.jpの方は今のところ1日2,000ユニークIP弱/日程度でした。
リリースから半年程経ちましたが、ちょびちょびとではありますが成長してきているようです。


3. 今騒がれているGoogle Ad Plannnerはaccessup.orgで7倍のずれ

ASCIIさんが扇情的な見出しの記事
黒船Google汐留沖に出現でWeb広告業界に激震!
を書いてGoogle Ad Plannerを紹介して注目を浴びています。

では、そもそもGoogle Ad Plannnerが認識している数字は、実際のサイトの数字とどれだけずれがあるのでしょうか?
データの出元は結局はGoogle Trendのデータと同じ物だと思われますが、これでは1日あたりのユニークユーザー数を出しているので、少なくとも1日あたりにユニークIP数はそれを下回る程度の数に近似出来る筈なので、その値と比較することでどれだけの精度があるか見ることが出来ます。
なお、PVで比較することにはほとんど意味がありません(Google Ad Plannnerの定義するPVと、サイト側が定義するPVは絶対一致しない為)。

Google Ad Plannnerが認識しているのは棒線なので大よそになりますが、accessup.orgについては1日あたり12000ユニーク程度でした。
https://www.google.com/adplanner/planning/site_profile#siteDetails?identifier=accessup.org&geo=001&trait_type=1&lp=true

accessup.orgのユニークIP数は先週の日曜日の時点で約82,000IP。
だから7倍近く誤差があります。
時期は完全には一致していない部分があるでしょうが、それだけ巨大なずれがあるということです。


4. Google Ad Plannnerの精度の悪さとその特性について考察

サーチエンジン訪問者経路数統計を見ると、1日あたりGoogleからだけでも2万PV以上は大体最低でも流入数があるので、

※赤=Yahoo経由 黄緑=Google経由 青=MSN経由

少なくとも自社の検索からサイト側へ流れている数を反映さえしていれば、その部分だけでもこの数字は上回るでしょうからこの数字は出ない筈です。
つまりGoogleで一番サンプリング数として使えるであろう検索エンジンの利用状況情報もほぼ活用出来ていない、かなりデータソースの根拠の欠けている状態のデータだということです。

残るGoogle側が公表しているデータソースとしては、やはりGoogle AnalyticsやGoogle Adwordsといった、相手先のサイトに埋め込んで貰うものが大きなソースになっているのではないかと思われます。
逆にそうしたものを埋め込んでいないサイトの場合、大の方向へのずれにしろ小の方向のずれにしろ、根拠が不明なかなりデタラメな数字になっているのだと思われます。
また、それはサイトによって一律の方向に誤差が生じるのではなく、サイトによって誤差の度合いも異なり、その幅も巨大なものとなっています。

そういう意味では、今のところ比較で見ると私の見る限りではALEXAの方が「遥かにましな」データを出せています。
もちろんALEXAも問題はあるわけですが、グラフの上下も鈍いGoogle Trendsに比べて、少なくともサイトのトラフィックの上下変動をある程度反映したデータを出せています。

↑少なくとも先の検索エンジンからの流入数の変化グラフに対応した上下動をしている

「Googleだから」というだけでALEXAとかよりも正確だろう、とか思われている方もいらっしゃるようですが、そんなことは全然ないです。
あくまでGoogle Analyticsを入れている場合には正確な値を出せる(あとAdwords掲載でもある程度活用していると思われる)と思われるようなものであるだけで、それ以外の場合は誤差が大きすぎて全く信頼出来ないデータです。

なお、Google Analyticsを使う場合には、価値のある分析データを無料でgoogleから貰うことができますが、自分の為だけのデータと思っていたものが、知らない間にこうしたツールを経由して第三者に自分のサイトに利用状況情報が公開されてしまうという問題があるという事を認識した上で利用する必要があるでしょう。

それにしても、Googleはストリートビューといい、Google Mapのデフォルト共有公開設定といい、知らないうちにそのデータを他の人と共有(公開)させて、コンテンツ化させてしまうのが好きですね(^^;
そういうところが、良くも悪くもちょっと日本とはずれているなぁ、と思います。


5. 解析でのユーザーの属性について

Googleは年収などのユーザー属性情報も出るそうですが、ユーザー属性についてはそれを調べた上でやっているNetratingsVideo Researchには比べるべくも無い不完全なものです。
ソースが不明なのにそれが凄く有用なデータだ、とすぐ飛びついてしまうのは論理的ではありません。
逆に言えば、そのソースを明示すれば、それなりのデータの価値に対する判断は出来るわけですが、それが明示されない以上はほぼ役に立たないと言わざるをえません。

NetratingsとVideo Researchはモニター範囲が狭いので、実数の計測としてはほぼ役に立ちませんが、契約してモニターになって貰うという性質上、ユーザー属性の把握という意味ではそうした計測ツールの中では役に立ちます。
ALEXAの方で表示されるユーザー属性は、一応インストールユーザーのオプションでのアンケート項目情報を統計に活用しているようです。ただ、このアンケートは英語で取られているので、日本のユーザーはほぼ入力をスキップすると思うので、日本のサイト・ユーザー把握についてはほぼ役に立たないでしょう。英語圏の場合はそれなりに有効に働く部分もあると思いますが。

Netratingsの統計データについては、売り込みの為にも掲載メディア側もそうした情報を把握・提供しているところがありますし、また自社が契約していればそれを見る事はできるので、それを活用すればサイト間での「横並び」の「ユーザー属性」比較は可能です。
実数としてはPVではなくユニークIP数でくれたりしない限り、ほぼ「相手のサイトの誠実さ次第」の数字になってしまうと思われますが。

記事にならって言えば、黒船というよりどっちかといえば、表は整えてあるけど裏の中身に欠ける立て看板に近いものがあると思います。
データ解析サービスにおいては、「裏側も見えるように=データソースも見えるように」して初めて黒船と言えるのであって、そうでなければ年収分布などユーザーが興味持ちそうなことを適当にでも書いてあるだけで、表だけ整っている立て看板として以上の価値は持ち得ないと思います。

[コメントする(論客以外もコメント可能記事)/2個
ブックマークBuzzurlFc2HatenaNiftyYahoo
皆声まとめ

ut さんのコメント (2009/05/26) [編集/削除(書込み者/所有者が可能)]
くっ

あっはっはっははあーあ。

ごめんなさい。

口語使うと誤字が出やすいのに校正かけるの忘れてました。

まあ、それはさておき、「なにを見せたくて(知りたくて)数字が作られたか」と言うことも大事ですよね。同じソースでも数字の切り出し方によって全く意味が変わってきますもんねー。ニュースの街頭インタビューみたいに。
管理人さん さんのコメント (2009/05/26) [編集/削除(書込み者/所有者が可能)]
くっ、utさんのコメントの意味が所々分からなくて、この短い文でこれでは自分の国語力実はかなりやばいなぁ...と、調べちゃったけど、よく考えたら単なるタイプミスだろうというのが分かりました(^^;
文法的には成り立っているので、そんな言い回しがあるのかと思ってしまいました。

それはそれとしまして、そうですね、何であれソースは?、信頼性は?、って意識を持つのは重要なことだと思います。

逆にこうした推定での統計値を発表する側としては、
・その裏(ソース)の信頼性まで気にかけない人が多くいる
・ネット業界はマスコミと違って発表する情報の裏付けについて大した規制が無い業界である
・話題になる部分を正確な数字が出せなくても出しちゃえばそれだけ話題になれる
じゃ、やっちゃって発表する側のメリットを最大化しよう、という発想にも繋がりがちな話題になる事優先な業界というところもあると思います。

メリットはそれでも両者にとってあることは多くありますが、逆に不確かな情報が流通することでデメリットも社会的にはあると思うので、その数字を活用しようと思う時には、そのソースの信頼度についてはいつも気にかけて判断しておく事が必要だと思います。
ut さんのコメント (2009/05/26) [編集/削除(書込み者/所有者が可能)]
このサイトのことがちょっぴり分かりました。

にしても、統計の話は偶にする分には面白いですねー。ただす宇治が存在していると言うだけでは何の意味もなく、ソースの根拠と解析のやり方に意味があるということがよく分かって面白いです。

普段でもどういうことを言いたくてどのような根拠で数字が作られたか、ということを意識して統計をみた慰問です。めんどくさいので鵜呑みにしがちなんですが。

[他の記事も読む]
<=新記事2009/05/27 Windows::Vista Service Pack2がリリース
=>古記事2009/05/23 OP/ED系の拡張

この論客の大分類が「ALEXA」の記事
この論客の記事全て
他論客の記事を含んだ新着日記記事一覧
作品DBのトップに戻る


初めて来てくれた方へ

折角なのでトップページからどんなサービスを提供しているのか色々見ていって下さい。
作品DB
OP/ED/PV DB
最速一括検索
皆声.jp
等、色々便利なサービスを提供しています。

連絡は私書チャット、DB外ユーザの方ならメールTwitterMixiFacebookで可能です


[DBトップ:フレーム無/フレーム版] [携帯版] [サイトマップ] [開発:ブログ/Twitter] | (c)1999- 1st Class(サービス:最速一括検索/皆声.jp/作品DB/)