2008/11/6 木曜日

Learning with Probabilistic Features for Improved Pipeline Models

カテゴリー: EMNLP2008 — chokkan @ 22:19:13

Razvan Bunescu. Learning with Probabilistic Features for Improved Pipeline Models.

入力xに対して,あるNLPコンポーネントがzを出力し,そのzを入力として,別のNLPコンポーネントがyを出力するというパイプライン・アーキテクチャは,自然言語処理において,よく用いられている.例えば,文に対してPOSタガーを適用して品詞を付与し,係り受け解析を行ったり,固有表現抽出を行うなどの処理は,このパイプライン・アーキテクチャの一例と言える.

本論文では,入力xに対して最適な出力 z* = argmax P(z|x) を求め,そのz*に対して最適な出力 y* = argmax P(y|x,z*) を求めるアーキテクチャをM1と表現する.入力xに対して最適な出力 z* = argmax P(z|x) を求め,そのz*を出力するときの確率 P(z*|x) を,次段のコンポーネントにおける素性の確信度として用いるアーキテクチャをM3と表現する.さらに,入力xに対し,可能なすべての出力 z ∈ Z(x) の条件付き確率 P(z|y) を求め,最終的な出力を y* = argmax \sum_{z ∈ Z(x)} P(y|x,z) と求めるアーキテクチャをM2と表現する.初段のコンポーネントが,CRFに基づく品詞タガーの場合は,xが単語の系列,zが品詞の系列になるが, P(z|x) をすべての z ∈ Z(x) に対して計算するのは,非現実的である.そこで,品詞タガー内のforward-backwardアルゴリズムから計算されるラベル z_i の周辺確率や,隣り合うラベル z_i → z_{i+1} の周辺確率を利用する.係り受け解析の実験結果ではM1よりもM2が良く,固有表現抽出の実験結果ではM1よりもM3の方が良いという結果を報告している.

このように短くまとめると簡単なように見えるが,効率よくM2やM3を実装するには,2つのコンポーネントで用いられる素性の種類や,グラフィカルモデルにおける仮定を積極的に利用して,計算の近似もしくは効率化を図らなけれならない.実際,その統合方法の解説に論文の大半が割かれており,汎用性のあるパイプライン・アーキテクチャとは呼べるかは疑問.

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

HTML convert time: 0.285 sec. Powered by WordPress ME