かなの出現頻度の話がエキサイトニュースで
エキサイトニュースの記事ではベスト10とワースト4しか載ってませんが、全順位が載っている調査もあります。例えばこれ。
「10万字サンプルにおける文字の出現頻度。」(『Weblog 61℃』)
他にも、類似の調査で、Web上で見られるものがいくつかあります。このブログの「しおり(リンク集)」の【配列作成参考資料】からリンクしています。(右側の柱の一番下にあります)
しかし、かえでさんのところでかなの出現頻度のアンケートをやってたばかりでこの記事とは、なんというタイムリーさ。
この調査結果の印象。たった1万字の統計だから偏りもあると思うけれど、そのわりには感じが出ていると思います。この程度の文字数でも、上位はしっかり上位に来るな、と。「ぬ」もきちんと最下位だし。
しかし、いくつかサンプル数が少ない影響も感じられます。「う」がベスト4落ちというのが驚き。ベスト4ははだいたいの調査で「い」「う」「ん」「し」になっているものですが。
「ー」はこの調査では最下位層ですが、「ー」の出現数はカタカナ語が出てくるかどうかにものすごく左右されます。たぶんサンプル文章中にカタカナ語が少なかったんでしょう。
今でこそかなの出現頻度は把握している私ですが(日本語入力配列の作成なんてことをやっていると自然に覚えてしまう)、日本語入力配列に興味を持つまでは、まったく知りませんでした。意識したことも少なかったし、何となくの印象も見当外れ。
JISかな入力を使っていたので、JISかな入力で打ちやすいキーが出現率が高いと思っていました。だから「し」「は」「く」「の」あたりがトップかなあ、と。「う」や「ん」が多いとは思わなかった。
なんとなく行別に固まって配置されている(「あ」「い」「う」「え」「お」は左手側の上の方にある、とか)のは偶然だと思っていました。
エキサイトニュースにトラバしてい記事を読んでも、「言われてみればそうかもしれないけど……」「他の文字の方が多いと思ってた」という感じの感想が多いようで、やっぱり印象と実態が食い違ってるようです。
しかし、実態を知っていようがいまいが、多く出てくる文字が楽に打て方がいいのは間違いないはず。携帯電話用の、出現頻度の実態に基づいた配列、あってもいいんじゃないでしょうかね。