2008/11/6 木曜日

Mention Detection Crossing the Language Barrier

カテゴリー: EMNLP2008 — chokkan @ 22:06:08

Imed Zitouni; Radu Florian. Mention Detection Crossing the Language Barrier.

“President John Smith said he has no comments.”という例文において,エンティティへの参照表現,例えば”John Smith”(固有表現),”President”(名詞句),”he”(代名詞)などを認識するタスクは,mention detectionと呼ばれる.本論文では,言語資源が乏しい言語(例えばアラビア語やスペイン語など)におけるmention detection性能を向上させるために,言語資源が豊富な言語(例えば英語)の学習データを利用する方法を提案する.

まず,mention detectionタスクを,固有表現抽出と同様に系列ラベリング問題と捉え,log-linearモデルで定式化する(読者注:論文の著者らは言及していないが,論文で提案されているモデルは,状態素性の作り方が特殊なCRFと捉えることができる).言語資源が乏しい言語のmention detectionを行うときに,資源が豊富な言語(英語)の力を借りる方法として,以下の3つを試している.

  1. 入力文を統計的機械翻訳を用いて英語に翻訳し,英語においてmention detectionした結果を,単語アライメントを経由して,元の言語に伝搬(そのままラベル付け)する方法
  2. 入力文を統計的機械翻訳を用いて英語に翻訳し,英語においてmention detectionした結果を,元言語のmention detection分類器の素性として取り込む方法
  3. 元言語の大量のコーパスを英語に翻訳し,英語においてmention detectionをした後,その結果を元言語に伝搬させ,元言語の訓練例として用いる手法

統計的機械翻訳の面白い使い道ではあるが,アイディアが単純過ぎる気が・・・.

コメントはまだありません »

コメントはまだありません。

このコメント欄の RSS フィード トラックバック URL

コメントをどうぞ

HTML convert time: 0.428 sec. Powered by WordPress ME