投稿者 itouhiro
タグ [ 日本語入力 ]
日本語の文章における かな 出現頻度について、 日本語入力用キー配列に関するリンク集@Wiki - テーマ「キー配列制作者に捧げる資料」のリンク集 にリンクがまとめられています。
しかしどの頻度表も「は」「ば」「ぱ」をちがう文字として扱っています。 これは頻度表としては正しいし、ローマ字入力みたいに濁点をあとから付け足さない日本語入力方法にはそのまま参考にできるでしょう。
ただし JISかな入力・新JISかな などの 濁点/半濁点あと打ち の入力方法の場合には、このままではキー押下頻度の参考にはできません。
たとえば「バーバパパ」 (ba-bapapa) という本文があったとします。従来の頻度表だと、
**かな 出現回数**
ば 2
ー 1
ぱ 2
となりますが、「濁点/半濁点あと打ち対応頻度表」だと 「ぱ」=「は」+「゜」 というふうに数えるから
**かな 出現回数**
は 4
ー 1
゛ 2
゜ 2
と、なりますね。
この方式で、濁点/半濁点あと打ち対応頻度表を作成してみました。
複数人の文章サンプルを統計したものから、3つのサイトを取り上げています。
http://www7.plala.or.jp/dvorakjp/hinshutu.htm
朝日新聞・読売新聞の一面及び社説、アメリカ歴代大統領の就任演説 (フィッツジェラルド〜ジョージ・ブッシュ)の和訳、 20代男性のE-mail及び刑法から11万7433字を解析したデータ
サンプル1文字を2バイト換算すると: 229 KB (0.2MB)
http://121ware.com/apinfo1/content/mworld/1-3.htm
調査対象文章: 高校教科書 9科目 9冊、 対象仮名文字数合計: 1,175,054
サンプル1文字を2バイト換算すると: 2295 KB (2.3MB)
http://jisx6004.client.jp/data/2chlog/1038483398.html
2ちゃんねるで使用される仮名/記号文字をカウントしました. 対象は全掲示板の大体500レス以上あるスレッドです. 話し言葉主体.合計:1,699,767,604個
サンプル1文字を2バイト換算すると: 174130 KB (174MB)
(Excel2003 で出力したものなので、Excelでそのまま読み込めます)
使用したPerlスクリプトです。従来の頻度表を文字コード EUC-JP にして、スクリプトでフィルタして、Excel でソートしました。
わかったことは、濁点/半濁点あと打ちの場合 濁点こそが最多打鍵キーだったということです。あと、濁点なしの文字の頻度が下がった結果、かな別の頻度も標準とは異なっています。
ちなみに私は現在、濁点/半濁点あと打ちの配列を使っています。最初 濁点・半濁点をかなのあとに入力する方式は「発音」と「打鍵数」が清音・濁音で一致しないという点で、ローマ字とかと比べてよくないのではないか、と思っていました。実際やってみると、日本語をペンで書くときと同じなのでいい感じに入力できています。
タグ [ 日本語入力 ]
固定リンク http://ai11.net/2006/03/24/
ブックマーク ![]()