といっても,帰国したのは2日前ですが.週末には登山があるので,何とか早く時差を直したいけど,この時間になかなか眠たくならず.
Coling 2008での自分での発表は,「識別的アライメントモデルを用いた略語抽出」というタイトルで,略語の定義の抽出というタスクを,機械翻訳で研究されてきたアライメント問題として定式化するというものです.略語定義の抽出タスクを,機械学習に基づいた自然なアプローチで解いてみました.個人的には,略語抽出の決定版と位置付けていて,今後軽微な修正や改良が必要かも知れませんが,英語の略語抽出はこの研究で十分だと考えています.
以下のような例文を考えます.
We evaluated the effect of thyriod transcription factor 1 (TTF-1).
英語の略語抽出では,もっぱら,括弧表現の内側に略語,括弧表現の外側に定義があると仮定するのが主流です.逆の(括弧表現の内側に定義が来る)ケースや,括弧表現以外で略語が定義されるケースもありますが,ちゃんとした文書を扱っている分には,無視できるくらい少ないことが分かっています.さて,括弧表現TTF-1が略語であるかどうかは,その前の表現に `T’, `T’, `F’, `1′ の起源となる文字があるかどうかで決まります.人間は,
- `T’: thriodの語頭の文字`t’に基づく
- `T’: transcriptionの語頭の文字`t’に基づく
- `F’: factorの語頭の文字`f’に基づく
- `1′: 1の文字`1′に基づく
という,略語の起源に関する情報をたちどころに認識できます.この略語の起源の関係を,略語の文字 y と定義の文字 x の間のアライメント a であると捉え,条件付き確率 P(a|x,y) を最大エントロピー法で近似し,なんとかコンピュータに分からせようというのが研究のアイディアです.日本語で書かれた詳細は,言語処理学会の年次大会の論文を参照してください.
発表後にたくさん質問して頂けたのは嬉しい限りでしたが,質問者の意図をくみ取ることができなかった質問が一つあったり,もっと良い応答をすべき質問があって,悔いが残りました.ただ,質問の英語そのものは,ほぼ100%聞き取れていたので,質問者ときちんとディスカッションをする能力を身につけるのが,今後の課題です.
日本の方から,「アライメントの経路の列挙にDPを使っているのかどうか」質問をされました.ある文が与えられた時,その略語アライメントの候補は高々100程度であることが実験的に分かっているので,DPなどは使っていないというのが私の回答でした.「xi に略語文字 yj が割り当て可能であるためには,xi-1, xi-2, …, x1 において yj を割り当てていないことが必要」というヒストリ依存の問題があって,通常のsum-productやmax-productのアルゴリズムでは難しく,constrainted inferencingが必要になります.略語抽出アライメントの場合は,略語候補の枝狩りがかなりできてしまうので,constrainted inferencingをしなくても,十分であるというのが,もっとマシな答えになります.
帰りの飛行機でこの質問のことを考えていたら,現状の実装の問題点に気付きました.現状の実装では,入力文に対する可能なアライメントにおけるすべての素性を書き出して,学習器に渡しています.ところが,複数のアライメントが共通に含むノードやエッジがたくさんあるはずなので,この実装方法は無駄だらけです.すなわち,ノードIDとそのノードにおけるすべての素性,エッジIDとそのエッジにおけるすべての素性を書き出しておき,各アライメントはノードIDとエッジIDの参照リストで構成しておく方が,同じノードやエッジに関与する素性のスコア計算を無駄に繰り返すことがなくなり,学習・タグ付けの両方が速くなるはずです.論文に書けないくらい軽微な工夫なのですが,なんで気付かなかったのか….
そろそろ寝てみます.