2008/11/1 土曜日

Syntactic Constraints on Paraphrases Extracted from Parallel Corpora

カテゴリー: EMNLP2008 — chokkan @ 21:57:27

Chris Callison-Burch. Syntactic Constraints on Paraphrases Extracted from Parallel Corpora.

表現e_1からe_2への言い換え確率は,f-e言語間の並列コーパスに対して,フレーズ抽出ヒューリスティック (Och and Ney, 2004) を用いて,p(e_2|e_1) = \sum_f p(f|e_1) p(e_2, f, e_1) ≒ \sum_f p(f|e_1) p(e_2|f) と計算される.しかしながら,この手法は”equal”-”equal rights”, “create equal”-”equal”に見られるように,部分文字列を含む言い換えペアを抽出してしまうため,言い換え後の文が文法的に正しくなる保証がない.例えば,”create equal”を”equal”に言い換えると,文から動詞が消えてしまう恐れがある.

この問題に対処するため,言い換え元の表現の文法カテゴリに基づく制約を導入する.表現e_1の文法カテゴリをs(e_1)とすると,表現e_1からe_2への言い換え確率を,p(e_2|e_1,s(e_1))  = 1/|C| * \sum_{c \in C} \sum_f p(f|e_1, s(e_1)) p(e_2|f, s(e_1)) と計算する.表現e_1の文法カテゴリs(e_1)には,CCGスタイルの記法(例えば”VP/(NP/NNS)”)を採用する.

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

HTML convert time: 0.618 sec. Powered by WordPress ME