2008/11/6 木曜日

Syntactic Models for Structural Word Insertion and Deletion during Translation

カテゴリー: EMNLP2008 — chokkan @ 22:57:15

Arul Menezes; Chris Quirk. Syntactic Models for Structural Word Insertion and Deletion during Translation.

これまでの統計的機械翻訳では,翻訳において機能語などの要素が挿入・削除される現象が上手く扱えなかった.例えば,英語の名詞句”file name”をスペイン語”nombre de archivo”に翻訳するときは,前置詞”de”が挿入される.本論文は,文法構造を用いた翻訳システムにおいて,文法的な手がかりに基づいて,語を挿入・削除する手法を述べる.究極的には,「NN_1 NN_2 → NN_2 de NN_1」のような,非語彙化翻訳ルールを獲得することが,本研究の目的である.

本論文は,係り受け構造に基づく翻訳モデルであるtreelet translation model (Menezes and Quirk, 2007) を出発点とする.Treelet translation modelは,語彙化された対訳ペアであるtreelet translation pairと,非語彙化ルールであるorder templateから構成されている.

Treelet translation pairは,

  • ((old_1/JJ) man_2/NN) → (hombre_2 (viejo_1))
  • (man_1/NN) → (hombre_1)

のように,翻訳元言語と翻訳先言語における係り受け関係のペアに,ノードのアライメント情報が付与されたものである.

Order templateは,非語彙化された翻訳ルール(係り受けのペア)である.

  • ((x0:*/DT) (x1:*/JJ) *_1/NN) → ((x0) *_1 (x1))
  • ((x0:*/DT) (x1:*/JJ) *_1/NN) → ((x0) (x1) *_1)

本論文では,係り受け解析済みの並列文が与えられたときに,order templateを抽出するアルゴリズムを修正し,アライメントが取れていないノードをルールに含むことを許容して,次のようなorder templateを抽出する.

  • ((x0:*/JJ) (x1:*/NN) *_1/NN) → (*_1 (*_2) (x1) (x2))
  • ((x0:*/JJ) (x1:*/NN) *_1/NN) → (*_1 (de) (x1) (x2))

Treelet translation modelは,名詞句の言い換えなどの研究に十分使えそうなので,個人的には要チェックの論文だった.

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

HTML convert time: 0.545 sec. Powered by WordPress ME