人気ブログランキング |

ローマ字入力でもなく、かな入力でもなく

kouy.exblog.jp
ブログトップ
 新しく配列を作るにあたって、かなの出現数や連なりのデータが必要だと思いました。そのようなデータはWeb上でもいくつか見ることができますが、自分の希望と一致するものは見つかりませんでした。
 サンプルとなる文章は100万字は欲しいと思いましたし、すでに存在するデータは「教科書だけ」「新聞だけ」「2ちゃんねるの書き込みだけ」「自分の書いた文章だけ」など、かたよったサンプルから取ったデータのように見えました。そうではなく、「教科書も、新聞も、2ちゃんねるの書き込みも、個人的な文章も」というデータが欲しい。

 というわけで、1年弱の期間をかけて、文章を100万字採集しました。文体やジャンル書き手などができるだけ偏らないように心がけました。採集期間に1年弱かけたのは、短期間で一気に集めると、それはそれで採集する文章が偏りそうだからです。

 その採集した文集を、不必要な部分を削除して、漢字部分をかなに直して、解析しました。
 実際のデータの作成は『Kanji2na』と『morogram』を使用しました。

 そして完成したデータは、「100万字日本語かなn-gramデータ」ですでにアップしたとおりです。

 このデータの欠点は、漢字からかなへの逆変換を『Kanji2na』に頼っている点です。この逆変換は完璧ではないので、データにブレが生じてしまいます。しかもこのブレは、元となる文章量をいくら増やしても相殺されることがありません。

 そこで、新下駄配列作成には、小梅作者である141Fさんが作られた10万字サンプルも使用させていただきました。

「[61℃] 小梅配列<その先の親指シフト> 10万字サンプルについて」
「Weblog 61℃: 10万字サンプルにおける文字の出現頻度。」
「Weblog 61℃: 10万字サンプルにおける 2-gram 頻度。」

 このデータは、文体やジャンルは偏りが少なく、なにより逆変換作業を人の手で行っているので、逆変換ミスによるブレがありません。
 自分の作ったデータとともに、この10万字サンプルも使用します。



 そして、これらのデータを見やすいように加工した表を3つ作りましたので公開します。(すべて『Openoffice.org calc』で作ったファイルです)

【かな出現数データ】
e0002687_22462462.gif

 かなを出現数順に上から並べて色分けしたもの。拗音分を引いています。(よって、「し」「き」「ち」の出現数が少なめになっています)
 左から2番目のブロックは拗音・外来音などのみを集めて出現数順に並べたもの。
 ほかにもいくつかデータが入っていますが、詳しくはファイルの中に「説明」というシートがあるのでそれを見て下さい。

●ダウンロード
N-gram_1gram.ods


【かな連なりデータ】
e0002687_22465397.gif

 かなの2文字の連なり(いわゆる2gram)のデータ。
 「2gram」シートは、一番左のブロックは出現数順、左から2番目のブロックは1文字目でソート、左から3番目のブロックは2文字目でソートしています。
 「2gram順不同」シートは、1文字目と2文字目を区別していません。つまり「あい」に表示される数値は、2gramの「あい」と「いあ」の合計ということになります(「いあ」に表示される数値も同様)。

●ダウンロード
N-gram_2gram.ods


【かな連なりマトリクス】
e0002687_22465897.gif

 かな連なりデータの2文字を縦軸と横軸にとって、マトリクス表にしたものです。1文字目と2文字目は順不同です。よって、例えば「いう」と「うい」には同じ数値が表示されます。
 縦横のかなの並び順はかな出現数順。見やすくするため、極端に出現率が低い文字は入っていません。

 この表は、新下駄配列を作成する上でもっともよく見たデータです。全盛期はA4用紙1枚にプリントアウトしたものをいつも持ち歩いて、暇さえあれば見るという感じでした。

●ダウンロード
N-gram_2matrix.ods
by koutarou_13 | 2010-11-17 23:05 | ●新下駄配列あれこれ
 tomoemonさんが日本語n-gramのデータを探されているようなので、探されているものとは違うような気もするけれど、自分が作ったn-gramデータをアップしておきます。

 作成手順は以下の通り。

1.Web上その他から、文章を適当に100万字採集。一応、URL、ブログの日付部分、青空文庫のルビなど、集計する意味がないと思われる部分は採集しないようにした。できるだけジャンルが偏らないようにした……つもり。採集した文章のリスト→n-gram_text_list.ods

2.すべての半角文字を全角に変換する。※どうせ英数記号は集計しない。

3.「.」「,」を「。」「、」に変換する。※句読点に「、」「。」ではなく、「,」「.」を使っている文章もあるので。

4.『Kanji2na』で漢字とカタカナをひらがなに変換する。

5.かなと句読点以外(空白も含む)を〓に置き換え、改行の手前に〓を入れる。〓が連続した部分は〓1つに置き換える。※morogramは空白や改行を無視して連続しているとみなすので、その部分を連続していないとして数えるため。

6.かなが存在しない行を削除。※かなが存在せず、句読点が存在する行も削除する。「。」「、」「〓」のみが残っている行の「。」「、」は日本語文章中の句読点ではないと考えられるため。

7.『morogram』で解析する。

 ……というようなものですので、ご利用する場合はその特徴をよく考えてご利用ください。

【日本語n-gramデータ】
N-gram_1gram.txt
N-gram_2gram.txt
N-gram_3gram.txt
N-gram_4gram.txt
N-gram_5gram.txt
N-gram_6gram.txt

 ちなみに、「1万字のかなを入力する場合の打鍵数」で使ったデータは、これです。

※関連記事
「新下駄配列の作成に使用したかな出現数・連なりデータ」
by koutarou_13 | 2009-03-01 15:13 | ●その他の日本語入力配列の話

▼日本語入力方法はローマ字入力とかな入力だけではない▼ローマ字入力とかな入力以外も普通のPCで簡単に使える▼というわけで新下駄配列で快適PCライフをめざすkouyのブログ


by kouy