新下駄配列の作成に使用したかな出現数・連なりデータ
サンプルとなる文章は100万字は欲しいと思いましたし、すでに存在するデータは「教科書だけ」「新聞だけ」「2ちゃんねるの書き込みだけ」「自分の書いた文章だけ」など、かたよったサンプルから取ったデータのように見えました。そうではなく、「教科書も、新聞も、2ちゃんねるの書き込みも、個人的な文章も」というデータが欲しい。
というわけで、1年弱の期間をかけて、文章を100万字採集しました。文体やジャンル書き手などができるだけ偏らないように心がけました。採集期間に1年弱かけたのは、短期間で一気に集めると、それはそれで採集する文章が偏りそうだからです。
その採集した文集を、不必要な部分を削除して、漢字部分をかなに直して、解析しました。
実際のデータの作成は『Kanji2na』と『morogram』を使用しました。
そして完成したデータは、「100万字日本語かなn-gramデータ」ですでにアップしたとおりです。
このデータの欠点は、漢字からかなへの逆変換を『Kanji2na』に頼っている点です。この逆変換は完璧ではないので、データにブレが生じてしまいます。しかもこのブレは、元となる文章量をいくら増やしても相殺されることがありません。
そこで、新下駄配列作成には、小梅作者である141Fさんが作られた10万字サンプルも使用させていただきました。
「[61℃] 小梅配列<その先の親指シフト> 10万字サンプルについて」
「Weblog 61℃: 10万字サンプルにおける文字の出現頻度。」
「Weblog 61℃: 10万字サンプルにおける 2-gram 頻度。」
このデータは、文体やジャンルは偏りが少なく、なにより逆変換作業を人の手で行っているので、逆変換ミスによるブレがありません。
自分の作ったデータとともに、この10万字サンプルも使用します。
そして、これらのデータを見やすいように加工した表を3つ作りましたので公開します。(すべて『Openoffice.org calc』で作ったファイルです)
【かな出現数データ】

かなを出現数順に上から並べて色分けしたもの。拗音分を引いています。(よって、「し」「き」「ち」の出現数が少なめになっています)
左から2番目のブロックは拗音・外来音などのみを集めて出現数順に並べたもの。
ほかにもいくつかデータが入っていますが、詳しくはファイルの中に「説明」というシートがあるのでそれを見て下さい。
●ダウンロード
N-gram_1gram.ods
【かな連なりデータ】

かなの2文字の連なり(いわゆる2gram)のデータ。
「2gram」シートは、一番左のブロックは出現数順、左から2番目のブロックは1文字目でソート、左から3番目のブロックは2文字目でソートしています。
「2gram順不同」シートは、1文字目と2文字目を区別していません。つまり「あい」に表示される数値は、2gramの「あい」と「いあ」の合計ということになります(「いあ」に表示される数値も同様)。
●ダウンロード
N-gram_2gram.ods
【かな連なりマトリクス】

かな連なりデータの2文字を縦軸と横軸にとって、マトリクス表にしたものです。1文字目と2文字目は順不同です。よって、例えば「いう」と「うい」には同じ数値が表示されます。
縦横のかなの並び順はかな出現数順。見やすくするため、極端に出現率が低い文字は入っていません。
この表は、新下駄配列を作成する上でもっともよく見たデータです。全盛期はA4用紙1枚にプリントアウトしたものをいつも持ち歩いて、暇さえあれば見るという感じでした。
●ダウンロード
N-gram_2matrix.ods