図1●かな漢字変換ソフトの変換精度
4種類の文書群(コーパス)を使って比較した。ことえり4はどの分野でもトップクラスだ。
図2●改修された変換ミス
技術系の用語に多く対応した。同時に,基本的な区切り間違いを減らした。
図3●学習後の変換精度
有効に働いていることが確認できた。学習の結果,精度は98%を超えた。
図4●話題の語の変換精度
どのソフトよりも変換精度が良い。特に人名の変換に強い。
図5●同音異義語の変換精度
他のテストに比べれば,伸びはあまり見られなかった。
 Macintosh OS付属のかな漢字変換ソフト「ことえり」は,出た当初“あまり賢くない”と評判だった。それがMac OS Xに付属のバージョン3では,他社製品に引けを取らないレベルに達していた(2003年11月号BYTE LAB「かな漢字変換ソフトの実力」参照)。そのことえりがさらに進化した。2003年10月25日にアップルコンピュータが出荷を開始した「Mac OS X v10.3“Panther”」に付属することえりはバージョン4になり,「同種のソフトの中でもトップを競える変換精度を実現した」(アップルコンピュータプロダクトマーケティングの櫻場浩課長)。

 検証の結果,変換精度は確かに良くなっていた。Windows用のソフトと比べてもほぼトップと言える(図1[拡大表示])。区切り間違いをなくしたり,変換できる語が増えたことなどが精度向上につながった。

変換精度はほぼトップ

 検証には,2003年11月号のBYTE LABで利用した文書群(コーパス)を使った。経済関係の新聞記事,技術用語が多く含まれる読み物,飲食店店主の生涯を追った一般的な読み物,そして口語表現が中心のインタビュー記事の4種類である。ことえりは技術系読み物と一般読み物の2分野で,最も高い変換精度を見せた。これ以外の二つのコーパスでも,旧版より良い結果が出た。

 変換結果を詳しく調べると,精度向上の要因が大きく二つ見えた(図2[拡大表示])。一つが,基本的な区切り間違いを減らしたこと。旧版では,一般的な表現でも区切り間違いを起こしてしまい,周囲の語を巻き込んで変換結果が大きく崩れることがあった。例えば,「ただこの方法から」が「忠子の方法から」,「漏洩した鍵を」が「漏洩し高木を」などと変換されてしまっていた。ことえり4では,これらが解消されている。

 さらに大きかったのが,変換できる語が増えたこと。「ことえり4にはさまざまな改良を加えたが,一番大きかったのが辞書の拡充」(櫻場氏)。特に技術系の用語でその成果が見られた。

 例えば「メカシャッタ」。デジタルカメラに関する技術系の記事を使ったので,この用語が本文中に何度も出てくる。以前はこの言葉が辞書に登録されておらず,区切り間違いを起こしてしまっていた。これ以外に「スミア」や「インタライン転送」といった言葉でも同様の結果が見られた。

 この結果,技術系読み物の変換精度が特に良くなった。旧版より2.3ポイントほど改善され,これまで最も成績が良かったATOKにも2ポイント近い差をつけている。

 技術系読み物には,一般的な語だがどのソフトも変換に苦戦する「画素」が含まれている。ことえりは,この語の変換結果も良かった。「画素」は,他の語に間違われやすい「が」と「そ」の2文字から成り立っているため,変換ミスが起こりやすい。例えば「11万画素と」という表現。「が」を格助詞だと判断することにより,「11万が外」と変換してしまうソフトが多い。ことえりでも旧版では同じように間違えていたが,今回は解消されている。

学習も有効に働く

 実際の使用局面を考えると,インストール直後の変換精度だけでは善し悪しが分からない。ソフトが変換を間違えた場合,ユーザーはキーを叩いて正しい結果を選ぶ。ソフトはこの結果を次の変換に反映する。いわゆる学習の仕組みである。

 これがどの程度有効に働くかを調べるため,デジタルカメラに関する別の文章を入力して正しく確定したあと,再度技術系のコーパスを入力するというテストをした。その結果,学習による精度の向上も認められた(図3[拡大表示])。

 学習によって正しく変換できるようになったもののほとんどが,同音異義語の変換ミス。「電化」と「電荷」,「阻止」と「素子」のように同じ読みで異なる表記が存在する語だ。

 ただ学習後の結果を比較すると,他のソフトと精度の差は縮まった。例えばATOKは,「スミア」など辞書に登録されていなかった語を学習することで,変換精度を上げている。ことえりはこうした語が最初から変換できたので,ATOKに比べれば精度向上の割合は低い。

同音異義語の精度はあまり変わらず

 辞書の整備が効いたためか,話題の語の変換精度もATOKを上回った(図4[拡大表示])。スポーツ選手や芸能人の人名や時事用語,「写メール」のような新語など,150個の言葉を集めて変換させた。

 これまで最も成績が良かったATOKよりも,正解数が5個多い。特に人名に強かった。

 ただし,すべての項目で大幅な精度向上が見られたわけではない。同音異義語の変換に関しては,旧版とそれほど差がない。

 テストのために,「詩集」と「刺繍」のような同音異義語の組を50組用意した。まず「詩集」で確定して学習させ,次の変換で「詩集」が優先して出てくる状態にする。その後「刺繍を施した布」のように,もう一方の漢字が正解となる文章を入力する。このとき,学習の結果に引きずられず正しい結果が出せるかをチェックした。正解数が多い方が,周囲の語を考慮してより正しい漢字を選んでいるということになる。

 この部分については,EGBRIDGEやATOKの精度が上だ(図5[拡大表示])。旧版より結果は良くなっているが,他の分野での大幅な精度向上に比べれば大きな改善ではない。「海鳥が鳴く」と「いとこが泣く」のように,よく使われる同音異義語でも正しく変換できないものがあった。

(八木 玲子)
出典:2003年12月号 14ページ
記事は執筆時の情報に基づいており、現在では異なる場合があります。