« | »

2008.11.06

Mention Detection Crossing the Language Barrier

Imed Zitouni; Radu Florian. Mention Detection Crossing the Language Barrier.

“President John Smith said he has no comments.”という例文において,エンティティへの参照表現,例えば”John Smith”(固有表現),”President”(名詞句),”he”(代名詞)などを認識するタスクは,mention detectionと呼ばれる.本論文では,言語資源が乏しい言語(例えばアラビア語やスペイン語など)におけるmention detection性能を向上させるために,言語資源が豊富な言語(例えば英語)の学習データを利用する方法を提案する.

まず,mention detectionタスクを,固有表現抽出と同様に系列ラベリング問題と捉え,log-linearモデルで定式化する(読者注:論文の著者らは言及していないが,論文で提案されているモデルは,状態素性の作り方が特殊なCRFと捉えることができる).言語資源が乏しい言語のmention detectionを行うときに,資源が豊富な言語(英語)の力を借りる方法として,以下の3つを試している.

  1. 入力文を統計的機械翻訳を用いて英語に翻訳し,英語においてmention detectionした結果を,単語アライメントを経由して,元の言語に伝搬(そのままラベル付け)する方法
  2. 入力文を統計的機械翻訳を用いて英語に翻訳し,英語においてmention detectionした結果を,元言語のmention detection分類器の素性として取り込む方法
  3. 元言語の大量のコーパスを英語に翻訳し,英語においてmention detectionをした後,その結果を元言語に伝搬させ,元言語の訓練例として用いる手法

統計的機械翻訳の面白い使い道ではあるが,アイディアが単純過ぎる気が・・・.

Trackback URL

Comment & Trackback

No comments.

Comment feed

Comment





XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>