アカウントに使われる文字

2010年04月02日

久し振りに、オフィシャルブログの解析ですよ。

このオフィシャルブログには色んなサイトがあり、それぞれ工夫を凝らしたサイト名が付けられています。
そこで、どんな名前が付けられているのかを調べたいと思った次第です。

具体的には、どんな「文字」が使われているのかを調べたいんだけども、「サイト名」ならば自由に付けられるから、「コ」や「ン」や「サ」が多いに決まってるだろうし、無数にある漢字を集計するのも煩わしいので、わざわざ調べてみるモチベーションを保てません。

代わりに、「アカウント」に使われている文字を調べることにしました。
アカウントは8文字以内の半角英数字しか使えないので、文字数が限られるから集計しやすいのです。

アカウントだって、「c」や「o」、「n」、「s」、「a」が多いに違いないと思われがちですが、そうじゃないかも知れません。
なぜなら、8文字のうちの5文字までを「consa」で使ってしまったら、残りは3文字分の自由度しか無くなるからです。

千数百ヶ所あるサイトを3文字の組み合わせで区別するのは難しい作業で、せっかく苦心して考えたアカウントで申し込もうとしても、「その文字列は既に使われています」と拒絶される可能性が大きいでしょう。

むしろ、「12」とか、自分のニックネームとか、誕生日を使うんじゃないかと想像して作業を始めました。自宅の電話番号や、キャッシュカードの暗証番号を使う人はいないだろうし。


アルファベットの「a」~「z」の26文字にハイフンとアンダースコアを加え、数字の「0」~「9」の10文字を加えた38文字について、文字別の使用頻度を集計しました。

どこを見て調べるかというと、「最新更新順ブログリスト」です。(データは、2010年3月29日現在の1409サイト)

ここの1ページから最終の29ページまでにリストアップされているサイトのアカウントを読み取り、1文字ずつ分解して、どの文字が何回使われているかを集計していくのです。

アカウントが存在してアクセス可能なサイトのうち、サポーターのジャンルのみを解析対象としました。

今回も興味の対象はアカウントだけであって、記事本文の内容には全く関心がありません。



いよいよ結果の発表です。

最も多く使われている文字は、「a」でした。

アルファベットでは、「a」、「o」、「i」、「n」、「s」、・・の順になっており、「consa」仮説は正しかったようです。
ただし、「c」は13位(数字も混ぜると14位)でした・・「cs」と繋げて使われそうな気がするけれど。

数字では、「1」、「0」、「2」、「9」、「3」、・・の順になっていました。「9」が多いのは意外だし、「コンサ」の当て字に使われるだろうと思った「5」は、数字10個中の9位に落ちぶれています。

一般に、英語では「e」の使用頻度が一番多く、「q」が最も少ないとされていますが、予想外に母音5字の中で「e」は最も低い10位でした。

 
使用頻度が多い方からの文字(と使用頻度)の順

a (1061)
o (756)
i (657)
n (486)
s (466)
u (450)
k (433)
t (392)
m (388)
e (379)
r (341)
1 (326)
h (274)
c (262)
y (242)
0 (227)
2 (217)
d (151)
b (137)
g (135)
p (134)
l (133)
9 (131)
3 (114)
7 ( 99)
8 ( 97)
6 ( 88)
w ( 82)
5 ( 79)
j ( 73)
z ( 70)
4 ( 68)
- ( 58)
f ( 55)
v ( 50)
x ( 38)
_ ( 35)
q ( 6)

 
自分のサイトのアカウントに使っている文字の使用頻度を足し合わせると、使われやすさ、つまり「ありきたり度」が分かります。(笑)

ここのアカウント(kariki)の「ありきたり度」は3582で、6文字にしては高い方だろうと思います。


この記事に対するコメント一覧

コメントする