Blog
豊橋で豊橋カレーうどんを食べてきました。徳永です。
金曜日から大変な地震が発生しています。被災地の皆様のご無事と、救助に向かわれた方のご無事をお祈りいたします。
さて、今回は、3/7〜3/11の間、豊橋技科大で行われた2011年の言語処理学会年次大会の参加報告をしたいと思います。私はC4セッション(日本語入力における言語処理(1))で、「C4-6 日本語かな漢字変換における識別モデルの適用とその考察」というタイトルで発表してきました。
予稿集のPDFの方は、こちらにアップロードしておきました。→日本語かな漢字変換における識別モデルの適用とその考察
発表内容に関しては、予稿のPDFと発表資料の方を見ていただければと思いますが、ここではもう少しぶっちゃけて、発表の狙いなどを書いてみたいと思います。
この発表の貢献を簡単に述べると、識別モデルを使うと変換精度が上がることが実験的に確かめられたよ、というものです。これまでも識別モデルを使ったらかな漢字変換の精度は向上するだろうと考えられてきましたが、公表された実験結果はありませんでした。ですので、たぶん数字は上がるだろうと予想されてはいるけれど、どれぐらい上がるのかは実験してみないとわからないという状況でした。
実験の結果得られた精度向上は3%程度で、これは手法を変更して得られる性能向上としては大きな部類に入ります。この理由として、学習データのサイズがちょっと少ない(約16000文)ことが挙げられるでしょう。学習データが大きくなると、識別モデルと生成モデルとの性能差はおそらく縮まるものと思います。この辺り、学習データサイズを変えながら追加実験をしてみたいところです。
さて、今回は日本語入力における言語処理、というテーマで10件もの発表がありました。これはちょっと日本語入力的には異例な件数です。その中で私が特に興味深いと思ったものをいくつか挙げてみたい…と思いましたが、結構長くなってきたので、個人的に一番興味深かった一件をやや詳しく取り上げます。
- C4-4 非局所素性を利用したかな漢字変換 ○高岡一馬, 内田佳孝, 松田寛 (ジャストシステム)
こちらでは、CRFに非局所素性を加える際に、単純に総当たりをするのではなく、ビタビアルゴリズムを拡張することによって比較的効率的に解を求める、といったことが説明されていますが、その他にも2点ほど、興味深い実験があります。統計的かな漢字変換の時代になってからは、単語分割と同音異義語の選択を同時に行うモデルがデファクトで、それ以外のやり方を論文では見たことがありませんでしたが、こちらでは単語分割と同音異義語の選択を分離した場合について実験が行われています。また、学習時に一文丸ごとを与えるのではなく数文節単位で学習させることによって、一文まるまるの変換も文節単位での変換も、両方ともそこそこいい感じの結果になる、という実験結果もあります。特に後者は非常に実用的で重要な知見だと思います。
この他、面白いという意味では
- C5-4 頻出文脈に基づく分野依存入力支援 ○海野裕也, 坪井祐太 (日本IBM)
が、発想が面白く、また枝狩りによって効率的に処理できるという点も含めて魅力を感じました。
- C4-3 統計的かな漢字変換システム Mozc ○工藤拓, 小松弘幸, 花岡俊行, 向井淳, 田畑悠介 (Google)
は、N-best解をどこで止めるかといった、これまで取り上げられてこなかった重要なトピックがたくさん問題提起されています。挙げられている問題はこれまではアドホックに解決されてきているわけですが、もっとうまいこと解決できないか、考えていきたいものです。また、学習について、オンライン更新を行うべきか、学習用言語モデルを作るかといった、Mozcの設計上の選択についていろいろ書いてあるのも、個人的には嬉しく感じました。
これまで、日本語入力の技術的な部分に関する話題というのはあまり一般には共有されてきませんでしたが、今回このようなテーマセッションが開かれたことによって、飲み会でひっそり話されていたような話が公になり、情報の共有という意味では非常に大きな進展があったと思います。IJCNLP 2011でもインプットメソッドのワークショップが開かれますが、これからの入力デバイスの変化などに対応できるよう、この分野がこれからも健全に進展していけるよう、私も微力ながらこの分野に貢献していければと考えています。
最後になりましたが、今回の運営は、事前にいろいろと準備が重ねられてきたのであろうと言うことが、参加するだけでもわかりました。休憩場所として教室が割り当てられていたり、休憩室で菓子パンが支給されていたり。運営に携わった皆様に感謝いたします。