« | »

2008.11.06

An Exploration of Document Impact on Graph-Based Multi-Document Summarization

Xiaojun Wan. An Exploration of Document Impact on Graph-Based Multi-Document Summarization.

重要文抽出タスクの既存手法として,文をノードとし,文の(コサイン)類似度をエッジとしたグラフを構築し,PageRankアルゴリズムで,文の重要度を計算する手法がある.この手法の問題点は,文の重要度が文間の類似度のみで決まってしまうことである.すなわち,ある文vがあるとき,その文が属している文書d_vのトピックの中心性や,d_vにおけるvの出現位置に基づく重要度などのファクターを取り込むことができない.

本論文は,文uとvのエッジの重みw_{uv}を,次式で計算する.

  • w_{uv} = sim(u, v) {λ π(d_u) ω(u, d_u) + (1 – λ) π(d_v) ω(v, d_v)}

ここで,π(d_u) は文書d_uの重み,ω(u, d_u) は文uの重みである.文書dの重み π(d_u) は,その文書の要約対象文書集合に対するトピック(内容語)の類似度,文書をノードとしてPageRankアルゴリズムを適用したときの活性値などを用いて求める.文vの重み ω(u, d_u) は,文書d_vにおける相対位置や,文書d_v全体に対するトピックの類似度などで計算する.

文グラフのエッジの重みに,文書の重要度や文の重要度などの要素を混ぜ込んでしまい,PageRankの「多くの重要な文と類似する文は重要である」という仮定を破壊し,アルゴリズムの正当性を失わせているので,個人的にはまずいと思う.文ごとにランダム・ウォークの確率を調整するなど,別のやり方があったはず.

Trackback URL

Comment & Trackback

No comments.

Comment feed

Comment





XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>