« | »

2008.11.01

Coarse-to-Fine Syntactic Machine Translation using Language Projections

Slav Petrov; Aria Haghighi; Dan Klein. Coarse-to-Fine Syntactic Machine Translation using Language Projections.

SCFGに基づく翻訳モデルは,n-gram言語モデルを用いない限り,CKYアルゴリズムに類似したアルゴリズムで翻訳ができるので,非常に効率がよい.しかし,n-gram言語モデルを組み合わせようとすると,探索空間が非常に広くなり,計算量が急増する.この問題に対処するため,翻訳先の言語モデルをbi-gramからスタートし,候補を絞ってからtri-gram言語モデルを導入する方法が提案されている(Zhang and Gildea, 2008).しかし,bi-gram言語モデルと組み合わせるだけでも,計算量はかなり膨大になる.

本論文は,計算量の増大が起こる原因として,「翻訳先の言語の可能な候補(単語)が多すぎること」に着目し,翻訳先の言語モデルの単語をクラスタリングする.翻訳文をデコードするときは,クラスタ数が少ない言語モデル(最小では16 unigrams, or 4096 tri-grams)からデコードを開始し,徐々に言語モデルのクラスタ数を増やしていく,マルチパス・デコーディングを行う.クラスタリング方法としては,ランダムクラスタリング,頻度クラスタリング,HMMクラスタリング,JClusterを試し,HMMクラスタリング,JClusterが低いパープレキシティを達成した.また,翻訳の評価実験では,1回のデコーディングだけで翻訳を行うベースラインと比較して,粒度の異なる言語モデルを用いた複数回のデコーディングを行う方が,翻訳速度,翻訳精度ともに向上することを示した.

プレゼンは,プログレッシブJPEGのように,最初はぼやーっとぼけている文字がだんだんとはっきりしていくアニメーションで,すごく分かりやすかった.

Trackback URL

Comment & Trackback

No comments.

Comment feed

Comment





XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>