アクセスランキングの怪

2008年10月09日

今週(10月07日号)の週間アクセスランキングの数値が変でした。
当日の昼前にアップされた時には、1位のアクセス数【16495】が2位のアクセス数【16696】 より少なくなっていたので、夕方になって1位が【26022】に修正されました。

何を根拠にして修正されたのかは不明ながら、これにて一件落着・・ではありません。
なぜなら、前回まで3週続けて、1位の「しまふく寮通信」のアクセス数が【16495】になっていました。(つまり今週は、連続4回目の【16495】になるところだった)
4回目が間違っていたのなら、3回目も間違っていたのかも知れないし、2回目も、1回目も・・

偶然が重なって非常に稀な現象が実際に起こったのか、あるいは集計プログラムの不具合なのか、それとも人為的な操作を加えているのかは、知る由も有りません。


純粋に数学的な興味から、昨年3月以来の毎週のアクセスランキングを調べていますけど、他にも不思議に見える現象に遭遇したことがあります。

具体的に何を調べているのかというと、1位から50位までのアクセス数の減衰の仕方(順位とアクセス数との関係)であり、それぞれの順位のサイト名はどうでもよくて、数値だけを見ています。(サイト名は途中で変更されることもあるし)

週毎のアクセス数は、試合の有/無やホーム/アウェイなどによっても変わり、それはそれで興味深いけれども収集が付かなくなるので、大まかな傾向を把握するために、全部の回の平均値を並べてグラフに表示します。

分布グラフ

ピンク色のデータを大雑把に言うと、
 (アクセス数)=20000÷√(順位)
のような回帰式で表される分布をしています。
しかし、1位のアクセス数はこの回帰式(水色)より多めに外れ、4位~10位あたりは少なめに外れてしまい、上位の方のデータ値は近似が良くありません。

次に、アクセス数を順次積算していった値を黒丸で表示してみると、
 (アクセス数)=27000×(順位)の0.6乗
のような関係になっていて、こちらの曲線(赤)は良くフィットしています。

このような結果を基に、アクセス数と順位とを支配している関係は△△分布である・・とか言いたい訳ですけど、まだそこまでは解析できていません。(知識と洞察力が不足)

仮に、元々のデータに人為的な操作が加えられていたとすると、このような解析は無意味になってしまいます。
万一、「オフィシャルブログへのアクセス形態から見るコンササポの情報収集行動」のようなテーマで卒業研究をしてる人がいたとしたら、その解析の努力が無駄になってしまいかねません。

数値を公表する以上は、正しい値を提供して欲しいと思うところです。