「ほっ」と。キャンペーン
Twitter
最新の記事
カテゴリ
タグ
以前の記事
新下駄配列の作成に使用したかな出現数・連なりデータ
 新しく配列を作るにあたって、かなの出現数や連なりのデータが必要だと思いました。そのようなデータはWeb上でもいくつか見ることができますが、自分の希望と一致するものは見つかりませんでした。
 サンプルとなる文章は100万字は欲しいと思いましたし、すでに存在するデータは「教科書だけ」「新聞だけ」「2ちゃんねるの書き込みだけ」「自分の書いた文章だけ」など、かたよったサンプルから取ったデータのように見えました。そうではなく、「教科書も、新聞も、2ちゃんねるの書き込みも、個人的な文章も」というデータが欲しい。

 というわけで、1年弱の期間をかけて、文章を100万字採集しました。文体やジャンル書き手などができるだけ偏らないように心がけました。採集期間に1年弱かけたのは、短期間で一気に集めると、それはそれで採集する文章が偏りそうだからです。

 その採集した文集を、不必要な部分を削除して、漢字部分をかなに直して、解析しました。
 実際のデータの作成は『Kanji2na』と『morogram』を使用しました。

 そして完成したデータは、「100万字日本語かなn-gramデータ」ですでにアップしたとおりです。

 このデータの欠点は、漢字からかなへの逆変換を『Kanji2na』に頼っている点です。この逆変換は完璧ではないので、データにブレが生じてしまいます。しかもこのブレは、元となる文章量をいくら増やしても相殺されることがありません。

 そこで、新下駄配列作成には、小梅作者である141Fさんが作られた10万字サンプルも使用させていただきました。

「[61℃] 小梅配列<その先の親指シフト> 10万字サンプルについて」
「Weblog 61℃: 10万字サンプルにおける文字の出現頻度。」
「Weblog 61℃: 10万字サンプルにおける 2-gram 頻度。」

 このデータは、文体やジャンルは偏りが少なく、なにより逆変換作業を人の手で行っているので、逆変換ミスによるブレがありません。
 自分の作ったデータとともに、この10万字サンプルも使用します。



 そして、これらのデータを見やすいように加工した表を3つ作りましたので公開します。(すべて『Openoffice.org calc』で作ったファイルです)

【かな出現数データ】
e0002687_22462462.gif

 かなを出現数順に上から並べて色分けしたもの。拗音分を引いています。(よって、「し」「き」「ち」の出現数が少なめになっています)
 左から2番目のブロックは拗音・外来音などのみを集めて出現数順に並べたもの。
 ほかにもいくつかデータが入っていますが、詳しくはファイルの中に「説明」というシートがあるのでそれを見て下さい。

●ダウンロード
N-gram_1gram.ods


【かな連なりデータ】
e0002687_22465397.gif

 かなの2文字の連なり(いわゆる2gram)のデータ。
 「2gram」シートは、一番左のブロックは出現数順、左から2番目のブロックは1文字目でソート、左から3番目のブロックは2文字目でソートしています。
 「2gram順不同」シートは、1文字目と2文字目を区別していません。つまり「あい」に表示される数値は、2gramの「あい」と「いあ」の合計ということになります(「いあ」に表示される数値も同様)。

●ダウンロード
N-gram_2gram.ods


【かな連なりマトリクス】
e0002687_22465897.gif

 かな連なりデータの2文字を縦軸と横軸にとって、マトリクス表にしたものです。1文字目と2文字目は順不同です。よって、例えば「いう」と「うい」には同じ数値が表示されます。
 縦横のかなの並び順はかな出現数順。見やすくするため、極端に出現率が低い文字は入っていません。

 この表は、新下駄配列を作成する上でもっともよく見たデータです。全盛期はA4用紙1枚にプリントアウトしたものをいつも持ち歩いて、暇さえあれば見るという感じでした。

●ダウンロード
N-gram_2matrix.ods
[PR]
by koutarou_13 | 2010-11-17 23:05 | ●新下駄配列あれこれ | Trackback | Comments(0)
トラックバックURL : http://kouy.exblog.jp/tb/13653611
トラックバックする(会員専用) [ヘルプ]
※このブログはトラックバック承認制を適用しています。 ブログの持ち主が承認するまでトラックバックは表示されません。
<< 新下駄配列の小型画像(まじかる... 新下駄配列で1万字入力する場合... >>

▼日本語入力方法はローマ字入力とかな入力だけではない▼ローマ字入力とかな入力以外も普通のPCで簡単に使える▼というわけで新下駄配列で快適PCライフをめざすkouyのブログ
検索
最新のコメント
最新のトラックバック
新配列習得前覚え書き1(..
from 未来の記憶たち ~Futur..
3時間新下駄配列速習教材
from お泊まり恋愛詩
通勤通学用!新下駄配列5..
from お泊まり恋愛詩
13日間新下駄配列マスタ..
from お泊まり恋愛詩
追加配列仮公開中
from 姫踊子草の楽屋裏
配列関連厳選リンク集
【このブログのおすすめ記事】

【新下駄配列】
●新下駄配列を作りました
●新下駄配列 - Wikipedia
●新下駄配列ブックマーク(はてなブックマーク)
●13日間新下駄配列マスターコース
●ヘヴィのヘヴィなお部屋::新下駄の巨人(新下駄練習用画像セットなど)

【下駄配列】
●下駄配列って何だ?
●ニコニコ動画:下駄配列でタイプウェルに挑戦
●YouTube:下駄配列でタイプウェルに挑戦
●下駄配列ブックマーク(はてなブックマーク)

【けいならべ】
●けいならべ――ローマ字入力より簡単なローマ字入力――

【キーボード配列】
◆総合紹介ページ
●いろいろなカナ入力配列
●QWERTYだけじゃない。 キーボード配列と日本語入力法 - NAVER まとめ

〔親指シフト系〕
◆NICOLA(親指シフト)
●NICOLA 日本語入力コンソーシアム
●親指シフトウォッチ

〔新JIS、中指シフト系〕
◆新JIS配列
●新JIS配列
◆花配列
●花のくに
◆月配列系
●月-中指シフト新JIS配列(2-263式)
●とりあえず月配列とかのブログ(U8版)
●ぶな配列

〔ローマ字入力拡張系、行段系、Dvorak系〕
◆AZIK・ACT
●拡張ローマ字入力『AZIK』・『ACT』で快適な日本語入力を!
◆Dvorak
●DvorakJP

〔漢字直接入力系〕
●漢直ノート 出張版

【配列変更ソフト・キーカスタマイズソフトなど】
●キー入力入れ替えソフト姫踊子草情報頁
●DvorakJ
●やまぶき作ってます
●「のどか」のページ (『窓使いの憂鬱』の派生ソフト)(初心者向けガイド:繭使いの憂鬱
●『KeySwap for XP』(愛とゆりの部屋)
●『Change Key』(窓の杜ライブラリ)
●Karabiner
(Macのキーカスタマイズソフト)
●『まじかるキーボード』(arakisoftware)※配列図を表示するソフト

【キーカスタマイズ】
●俺的キーカスタマイズまとめ (当ブログ記事)
●Wisteria:キーボードを最適に
●分裂勘違い君劇場:思考の速度でパソコンを使う技術
●ejanの24/7:キー配置を変更する:その4
●こどものもうそうblog:1.5倍速く打てる「米光配列」
●enthumble(アンサンブル)

【タイピング】
●GANGAS(『タイプウェル』シリーズ)
●e-typing
●TypeLighter
●シャドールーム
●GROW LAND:タイピング講座
●新聞コラム・社説を打とう

【キーボード】
●ShopU - 親指シフトキーボード
●東プレ株式会社 - キーボード(Realforce)
●富士通専門店ACCESS
●猫のキーボードルーム:キーボード個別面談
●親指シフトの小部屋:親指シフト化に適しているかもしれないJISキーボード

【ワープロ速記、口述筆記】
●テープ起こし・音声起こしの総合情報サイトokoso
●新ワープロ速記法《Internet Archive》
●パソコン要約筆記鷹の爪。

【配列作成参考資料】
◆かなの出現頻度
●100万字日本語かなn-gramデータ
●10万字サンプルにおける文字の出現頻度。
●文字頻度表
●文字や文字の連なりの出現頻度調査結果
●【ローマ字,仮名,親指】新JIS配列キーボード 165
●かな出現頻度調査
◆かなの連なり頻度
●100万字日本語かなn-gramデータ
●10万字サンプルにおける 2-gram 頻度。
●文字や文字の連なりの出現頻度調査結果
●よろしければ配列について教えろ その2 248

【このブログのコメント、トラックバック機能についてなど】

リンク集の最終更新日:2015/12/13

あわせて読みたい
記事ランキング
ブログジャンル
画像一覧