かな漢字変換システムについてのワークショップ報告

English version is here.

1995年10月14日、jus主催・Wnnコンソーシアム共催による「かな漢字変換システムについてのワークショップ」が開催された。そもそもこのようなテーマのワークショップはあまり例がない。またフリー版・製品版のかな漢字変換システムを実際に開発している方々が一同に会して議論する場も、もしかすると初めてかも知れない。その様な状況で、開催者側では成功するかどうか多少心配ではあったが、いざふたを開けて見ると非常に内容の濃い有意義なワークショップとなった。

セッションは午前・午後の二部に分かれ、午前中は講演を中心に、午後はパネルディスカッションを中心に進行した。

まず、和賀亮太郎氏(オムロンソフトウェア)から、 Wnnコンソーシアムについての活動報告があった。 Wnnコンソーシアムは、かな漢字変換システムWnnを広く普及させるため、 1990年に設立された。 Wnn自体は1985年に京大・オムロン・アステックの共同開発が開始され、 1987年にVer2をフリーソフトとして公開して以来、 X Window Systemのcontribに含まれ、中国語変換システムcWnn、韓国語変換システムkWnnの開発など、フリーのかな漢字変換システムの標準として着実に位置を築いて来た。その意味では現在Wnnコンソーシアムの目的はほぼ達成されたといってもよい。先頃オムロンソフトからは、Wnnを機能強化した製品版Wnn6も発売され、従来のようなコンソーシアムの役割も終ったと見るべきかも知れない。フリー版Wnn4の保守は今後もWnnコンソーシアムで続けていく予定だが、コンソーシアム自体はあまり費用をかけずに、ボランティアベースで活動していく予定だそうである。

次に、土居範久氏(慶応大学)が、「計算機言語とキャラクタセット」と題して、さまざまなプログラミング言語におけるマルチバイト文字の扱いについて講演された。話題に挙がった言語は、 FORTRAN、COBOL、BASIC、PASCAL、Ada、C、Mumps、C++、Lisp、Prolog、APLである。それぞれISOでキャラクタの拡張が議論され定められている言語もあれば、 ASCIIキャラクタのみで言語仕様が止まっているものもあるようだ。

午前の最後の講演では、日経パソコン誌の副編集長である西山氏が、パソコン・ユーザーの視点に立っての日本語入力システムについて話された。パソコン上の日本語入力システム(かつてはその仕組みからFEPと呼ばれていた)は、変換効率重視で改良が続けられてきた経緯がある。ハードディスクや高速なCPUの普及により、辞書ファイルはどんどん巨大になり、 AI変換などの高度な処理も今や当たり前になった。ほかにも Windows/Macintoshに対応して設定操作パネルにGUIを使うようになったり、かな漢字変換本来の機能以外のもの(たとえば入力ミスを自動的に補正するなど) も取り込むようになった。今後は国語辞書と提携するなど用字用語辞書としての役割を求めてもよいのではないか、ノウハウの詰まった辞書なのだから推敲支援やOCRなどへの利用を検討すべきではないか、などの要望も挙げられた。「ユーザーは、微小な差はほとんど気にしないので、変換効率の定量的定性的評価には意義を感じていない」という言葉が印象に残った。

午後は、パネリストとしてかな漢字変換システムを開発している方々に登場いただき、いくつかのテーマでディスカッションがかわされた。そのあとは、参加者も含めてのディスカッションとなった。パネリストは、以下の方々である。

桑理聖二　氏(オムロン) - かな漢字変換システム「Wnn」の開発者
長岡　宏　氏(オムロン) - かな漢字変換システム「Wnn」の開発者
今　昭　氏(NEC) - かな漢字変換システム「かんな」の開発者
小山　泰男氏(エーアイソフト) - かな漢字変換システム「WX」シリーズの開発者
石曽根　信氏(SRA) - X Window System 上の日本語入力サーバ「kinput2」の開発者

午後最初のセッションでは、「日本語入力システムのアーキテクチャ再考」をテーマとし、日本語入力システムのアーキテクチャ的な側面からの考察をおこなった。桑理・石曽根・今・小山の4氏により、 Wnn・kinput2・かんな・WXの動作方式を図解も含めて発表された。

話題の中心は、複数システムを使った際のモジュールの相互運用性、辞書・学習情報の交換などであり、それぞれのシステムの``おいしい''ところを組み合わせて使いたいというユーザーの立場に立っての要望が強くあらわれていた。これはとりも直さず、 Wnnの独立した辞書サーバー・かんなの統一されたインターフェイスの枠組など、それぞれが独自の視点をもとに特徴的なシステムを作っているからなし得ることであり、健全な姿ともいえる。しかし実際には、たとえば辞書・学習情報を交換しようとしても、品詞や頻度が各変換システムの文法解析に密接に結びついていてうまくいかない場合があったり、接続情報なしの付属語だけでは流通が難しいなどの問題が指摘された。会場からは、ローマ字かな変換をかな漢字変換システムから切り離し独立して動作させたいなど、ユニークなアイディアがいくつも出された。

午後2番目のセッションは「かな漢字変換効率の向上策」であり、正しい変換のためのさまざまな方法論が議論された。

一口に変換効率というが、その定義は実はあいまいであり、おもに2つの意味があると思ってよい。

一度の変換で正しい変換結果を得る。(変換エンジン単体の性能)
誤った変換結果を最終的に正しい結果にするためのターンアラウンド (ユーザー・インターフェイスを含めたシステム全体の性能)

今回は前者を「変換精度」後者を「変換効率」と定義して議論を進めた。

最初に小山・今・長岡の三氏に、 WX・かんな・Wnnのかな漢字変換の仕組みについてざっと話して頂いた。それぞれのシステムが特徴とする変換手法・細かいテクニックなど、次々に紹介される内容は非常に面白いものであった。

かな漢字変換システムは、

文節区切りの解析
単語の分類法
文節間の関係による変換候補の優先順位
辞書の性能
学習による変換精度の向上

など、さまざまな技術が複雑に絡みあっている。これが、変換効率の向上が一筋縄ではいかない1つの理由である。反面、非常に多くの選択肢が用意されているとも考えられ、各システムがそれぞれ独自の方法論により効率を競い合う土台となっている。

参加者も含めたディスカッションでは、様々な話題が挙がった。その1つに、変換精度・変換効率の評価方法があった。現在、この評価方法はまったく確立しておらず、どの変換システムが優れているかを示すために、多分に感覚的な評価に頼っているのが実情であることが示された。異なるかな漢字変換システムを定量的に評価比較する尺度は、現状では存在しないといっても良いのは意外であった。

このほかにも、文節区切りの入力方法、国語文法上の文節と変換システム的な文節の関係、自動変換と逐次変換の比較、区切り学習の仕組み、各システムの文法解析は現在でも手が入れられている状態なのか (この質問は参加者中のかな漢字変換システム開発者にも答えて頂いた)、変換済みの文章を食わせて辞書学習させる方法、AI変換の得失、日本語以外の言語について、口語変換の弱さ、誤入力を前提とした変換システム、T-Codeについてなど、多岐にわたる話題で会場は大いに盛り上がった。

1日という非常に限られた時間の中にもかかわらず、これほど多くの話題が登場し、しかもかなり深い議論がなされたことを考えると、このテーマでのワークショップが望まれていたのだと感じられた。

最初のかな漢字変換システムが開発されたのはずいぶん過去のことである。歴史と呼んでも差し支えないくらい長きにわたり、改良を加え続けられて現在に至っているが、技術的にはまだまだ「熱い」分野であるとの思いを強くした。

最後に、御参加頂いた講演者・パネリストの方々、司会を心良く引き受けて下さったリコーの太田純氏、事前準備に大きく貢献して頂いたX11研究会の方々、そして活発な議論を交わされた参加者の方々に、この場をお借りして厚くお礼を申し上げたい。

戻る

日本UNIXユーザ会 jusロゴ

www-admin@jus.or.jp