人気ブログランキング |

ローマ字入力でもなく、かな入力でもなく

kouy.exblog.jp
ブログトップ

100万字日本語かなn-gramデータ

 tomoemonさんが日本語n-gramのデータを探されているようなので、探されているものとは違うような気もするけれど、自分が作ったn-gramデータをアップしておきます。

 作成手順は以下の通り。

1.Web上その他から、文章を適当に100万字採集。一応、URL、ブログの日付部分、青空文庫のルビなど、集計する意味がないと思われる部分は採集しないようにした。できるだけジャンルが偏らないようにした……つもり。採集した文章のリスト→n-gram_text_list.ods

2.すべての半角文字を全角に変換する。※どうせ英数記号は集計しない。

3.「.」「,」を「。」「、」に変換する。※句読点に「、」「。」ではなく、「,」「.」を使っている文章もあるので。

4.『Kanji2na』で漢字とカタカナをひらがなに変換する。

5.かなと句読点以外(空白も含む)を〓に置き換え、改行の手前に〓を入れる。〓が連続した部分は〓1つに置き換える。※morogramは空白や改行を無視して連続しているとみなすので、その部分を連続していないとして数えるため。

6.かなが存在しない行を削除。※かなが存在せず、句読点が存在する行も削除する。「。」「、」「〓」のみが残っている行の「。」「、」は日本語文章中の句読点ではないと考えられるため。

7.『morogram』で解析する。

 ……というようなものですので、ご利用する場合はその特徴をよく考えてご利用ください。

【日本語n-gramデータ】
N-gram_1gram.txt
N-gram_2gram.txt
N-gram_3gram.txt
N-gram_4gram.txt
N-gram_5gram.txt
N-gram_6gram.txt

 ちなみに、「1万字のかなを入力する場合の打鍵数」で使ったデータは、これです。

※関連記事
「新下駄配列の作成に使用したかな出現数・連なりデータ」
by koutarou_13 | 2009-03-01 15:13 | ●その他の日本語入力配列の話

▼日本語入力方法はローマ字入力とかな入力だけではない▼ローマ字入力とかな入力以外も普通のPCで簡単に使える▼というわけで新下駄配列で快適PCライフをめざすkouyのブログ


by kouy