100万字日本語かなn-gramデータ
作成手順は以下の通り。
1.Web上その他から、文章を適当に100万字採集。一応、URL、ブログの日付部分、青空文庫のルビなど、集計する意味がないと思われる部分は採集しないようにした。できるだけジャンルが偏らないようにした……つもり。採集した文章のリスト→n-gram_text_list.ods
2.すべての半角文字を全角に変換する。※どうせ英数記号は集計しない。
3.「.」「,」を「。」「、」に変換する。※句読点に「、」「。」ではなく、「,」「.」を使っている文章もあるので。
4.『Kanji2na』で漢字とカタカナをひらがなに変換する。
5.かなと句読点以外(空白も含む)を〓に置き換え、改行の手前に〓を入れる。〓が連続した部分は〓1つに置き換える。※morogramは空白や改行を無視して連続しているとみなすので、その部分を連続していないとして数えるため。
6.かなが存在しない行を削除。※かなが存在せず、句読点が存在する行も削除する。「。」「、」「〓」のみが残っている行の「。」「、」は日本語文章中の句読点ではないと考えられるため。
7.『morogram』で解析する。
……というようなものですので、ご利用する場合はその特徴をよく考えてご利用ください。
【日本語n-gramデータ】
N-gram_1gram.txt
N-gram_2gram.txt
N-gram_3gram.txt
N-gram_4gram.txt
N-gram_5gram.txt
N-gram_6gram.txt
ちなみに、「1万字のかなを入力する場合の打鍵数」で使ったデータは、これです。
※関連記事
「新下駄配列の作成に使用したかな出現数・連なりデータ」