Syntactic Constraints on Paraphrases Extracted from Parallel Corpora
Chris Callison-Burch. Syntactic Constraints on Paraphrases Extracted from Parallel Corpora.
表現e_1からe_2への言い換え確率は,f-e言語間の並列コーパスに対して,フレーズ抽出ヒューリスティック (Och and Ney, 2004) を用いて,p(e_2|e_1) = \sum_f p(f|e_1) p(e_2, f, e_1) ≒ \sum_f p(f|e_1) p(e_2|f) と計算される.しかしながら,この手法は”equal”-”equal rights”, “create equal”-”equal”に見られるように,部分文字列を含む言い換えペアを抽出してしまうため,言い換え後の文が文法的に正しくなる保証がない.例えば,”create equal”を”equal”に言い換えると,文から動詞が消えてしまう恐れがある.
この問題に対処するため,言い換え元の表現の文法カテゴリに基づく制約を導入する.表現e_1の文法カテゴリをs(e_1)とすると,表現e_1からe_2への言い換え確率を,p(e_2|e_1,s(e_1)) = 1/|C| * \sum_{c \in C} \sum_f p(f|e_1, s(e_1)) p(e_2|f, s(e_1)) と計算する.表現e_1の文法カテゴリs(e_1)には,CCGスタイルの記法(例えば”VP/(NP/NNS)”)を採用する.
トラックバック URL :
コメント (0)