Home > 2月, 2008

2008.02.19

MACCORI 1.0 released

Marginal Containers Covering Relevant Items (MACCORI) というソフトウェアをリリースしました.文書の要約をコンピュータに生成させるための要素技術として,重要文抽出というものがあります.これは,「与えられた N 個の文の中から,重要と思われる L 文字以内の文を抽出する」という問題を解くタスクです.計算機に要約文を作文させるのは非常に難しいため,文書自動要約の現実的なアプローチであり,様々な方法が提案されています.

MACCORIでは,文(コンテナと呼びます)が内容ベクトル(重み付きアイテム集合)から構成されており,抽出した文に含まれるアイテムの重みの総和が最大になるように,抽出文集合(与えられたコンテナの部分集合)をビーム探索します.内容ベクトルとしては,unigram,bigram,係り受け関係など, 元の文の内容を反映するような形式を用いることができます.複数文書自動要約では,類似した内容を要約文に含めないようにすることが重要なので,重複するアイテムを要約文に含めた時に,ペナルティを課すようになっています.詳細は,TSC3の論文に記述してあります.

ソフトウェア自体は,4年も前に書いたものなのですが,リリースする時期を逸していました.しかしながら,最近になってもソフトウェアを使ってみたいとのリクエストが寄せられているので,リリースしてみました.