投稿者 itouhiro
タグ [ 日本語入力 ]

「濁点/半濁点あと打ち」に対応した かな頻度表を作成

日本語の文章における かな 出現頻度について、 日本語入力用キー配列に関するリンク集@Wiki - テーマ「キー配列制作者に捧げる資料」のリンク集 にリンクがまとめられています。

しかしどの頻度表も「は」「ば」「ぱ」をちがう文字として扱っています。 これは頻度表としては正しいし、ローマ字入力みたいに濁点をあとから付け足さない日本語入力方法にはそのまま参考にできるでしょう。

ただし JISかな入力・新JISかな などの 濁点/半濁点あと打ち の入力方法の場合には、このままではキー押下頻度の参考にはできません。

たとえば「バーバパパ」 (ba-bapapa) という本文があったとします。従来の頻度表だと、

**かな 出現回数**
ば 2 
ー 1 
ぱ 2

となりますが、「濁点/半濁点あと打ち対応頻度表」だと 「ぱ」=「は」+「゜」 というふうに数えるから

**かな 出現回数**
は 4 
ー 1 
゛ 2 
゜ 2

と、なりますね。

この方式で、濁点/半濁点あと打ち対応頻度表を作成してみました。

かな頻度表サンプル

複数人の文章サンプルを統計したものから、3つのサイトを取り上げています。

かな頻度表

(Excel2003 で出力したものなので、Excelでそのまま読み込めます)

使用したPerlスクリプトです。従来の頻度表を文字コード EUC-JP にして、スクリプトでフィルタして、Excel でソートしました。

結論

わかったことは、濁点/半濁点あと打ちの場合 濁点こそが最多打鍵キーだったということです。あと、濁点なしの文字の頻度が下がった結果、かな別の頻度も標準とは異なっています。

ちなみに私は現在、濁点/半濁点あと打ちの配列を使っています。最初 濁点・半濁点をかなのあとに入力する方式は「発音」と「打鍵数」が清音・濁音で一致しないという点で、ローマ字とかと比べてよくないのではないか、と思っていました。実際やってみると、日本語をペンで書くときと同じなのでいい感じに入力できています。

タグ [ 日本語入力 ]
固定リンク http://ai11.net/2006/03/24/
ブックマーク はてなブクマ登録 Yahoo!ブクマ登録