Syntactic Models for Structural Word Insertion and Deletion during Translation
Arul Menezes; Chris Quirk. Syntactic Models for Structural Word Insertion and Deletion during Translation.
これまでの統計的機械翻訳では,翻訳において機能語などの要素が挿入・削除される現象が上手く扱えなかった.例えば,英語の名詞句”file name”をスペイン語”nombre de archivo”に翻訳するときは,前置詞”de”が挿入される.本論文は,文法構造を用いた翻訳システムにおいて,文法的な手がかりに基づいて,語を挿入・削除する手法を述べる.究極的には,「NN_1 NN_2 → NN_2 de NN_1」のような,非語彙化翻訳ルールを獲得することが,本研究の目的である.
本論文は,係り受け構造に基づく翻訳モデルであるtreelet translation model (Menezes and Quirk, 2007) を出発点とする.Treelet translation modelは,語彙化された対訳ペアであるtreelet translation pairと,非語彙化ルールであるorder templateから構成されている.
Treelet translation pairは,
- ((old_1/JJ) man_2/NN) → (hombre_2 (viejo_1))
- (man_1/NN) → (hombre_1)
のように,翻訳元言語と翻訳先言語における係り受け関係のペアに,ノードのアライメント情報が付与されたものである.
Order templateは,非語彙化された翻訳ルール(係り受けのペア)である.
- ((x0:*/DT) (x1:*/JJ) *_1/NN) → ((x0) *_1 (x1))
- ((x0:*/DT) (x1:*/JJ) *_1/NN) → ((x0) (x1) *_1)
本論文では,係り受け解析済みの並列文が与えられたときに,order templateを抽出するアルゴリズムを修正し,アライメントが取れていないノードをルールに含むことを許容して,次のようなorder templateを抽出する.
- ((x0:*/JJ) (x1:*/NN) *_1/NN) → (*_1 (*_2) (x1) (x2))
- ((x0:*/JJ) (x1:*/NN) *_1/NN) → (*_1 (de) (x1) (x2))
Treelet translation modelは,名詞句の言い換えなどの研究に十分使えそうなので,個人的には要チェックの論文だった.
トラックバック URL :
コメント (0)