2008.11.06
Summarizing Spoken and Written Conversations
Gabriel Murray; Giuseppe Carenini. Summarizing Spoken and Written Conversations.
本論文は,会話文の要約システムを提案し,AIMコーパス(会議の議事録),及びメールのログ(Enronコーパス)において評価をしている.要約システムは,ある文を抽出すべきかどうかを判別する二値分類器(ロジスティック回帰)から構成されている.
分類器の素性として,文の長さ(SLEN, SLEN2),文の位置(TLOC, CLOC),発話された時間(TPOS1, TPOS2),発話前後の空白時間(SPAU, PPAU),発話者の発話の多さ(DOM),現在の発話者が会話を始めたかどうか(BEGAUTH),特定の発話者もしくは発言ターンで頻繁に用いられている語を重視する重み付けで文のスコアを計算したもの(MXS, MNS, SMS, MXT, MNT, SMT),直後の発話内容との類似性(COS1, COS2),会話全体との類似性(CENT1, CENT2),エントロピーに基づく重み付け(THISENT, PENT, SENT)を用いている.
Trackback URL
Comment & Trackback
Comment feed
Comment