Learning with Probabilistic Features for Improved Pipeline Models
Razvan Bunescu. Learning with Probabilistic Features for Improved Pipeline Models.
入力xに対して,あるNLPコンポーネントがzを出力し,そのzを入力として,別のNLPコンポーネントがyを出力するというパイプライン・アーキテクチャは,自然言語処理において,よく用いられている.例えば,文に対してPOSタガーを適用して品詞を付与し,係り受け解析を行ったり,固有表現抽出を行うなどの処理は,このパイプライン・アーキテクチャの一例と言える.
本論文では,入力xに対して最適な出力 z* = argmax P(z|x) を求め,そのz*に対して最適な出力 y* = argmax P(y|x,z*) を求めるアーキテクチャをM1と表現する.入力xに対して最適な出力 z* = argmax P(z|x) を求め,そのz*を出力するときの確率 P(z*|x) を,次段のコンポーネントにおける素性の確信度として用いるアーキテクチャをM3と表現する.さらに,入力xに対し,可能なすべての出力 z ∈ Z(x) の条件付き確率 P(z|y) を求め,最終的な出力を y* = argmax \sum_{z ∈ Z(x)} P(y|x,z) と求めるアーキテクチャをM2と表現する.初段のコンポーネントが,CRFに基づく品詞タガーの場合は,xが単語の系列,zが品詞の系列になるが, P(z|x) をすべての z ∈ Z(x) に対して計算するのは,非現実的である.そこで,品詞タガー内のforward-backwardアルゴリズムから計算されるラベル z_i の周辺確率や,隣り合うラベル z_i → z_{i+1} の周辺確率を利用する.係り受け解析の実験結果ではM1よりもM2が良く,固有表現抽出の実験結果ではM1よりもM3の方が良いという結果を報告している.
このように短くまとめると簡単なように見えるが,効率よくM2やM3を実装するには,2つのコンポーネントで用いられる素性の種類や,グラフィカルモデルにおける仮定を積極的に利用して,計算の近似もしくは効率化を図らなけれならない.実際,その統合方法の解説に論文の大半が割かれており,汎用性のあるパイプライン・アーキテクチャとは呼べるかは疑問.
トラックバック URL :