2008.11.01
One-Class Clustering in the Text Domain
Ron Bekkerman; Koby Crammer. One-Class Clustering in the Text Domain.
あるトピックに関連する文書と関連しない文書が混ざっている文書集合が与えられたとき,トピックに関連する文書集合(核)と関連しない文書(ノイズ)に分類する教師無し手法を提案し,その手法の理論的な裏づけを行う.まず,単語wのトピックへの関与度を表す指標として,ρ(w) = p(w) / q(w)を用いる.ここで,p(w)は与えられた文書集合中におけるwの出現確率,q(w)は膨大な文書集合(例えばGoogle Web1Tコーパスなど)中におけるwの出現確率である.ある文書dのトピック度をp(w)とq(w)のKL-divergenceで計ると, KL_d(p||q) = \sum_{w \in G} p(d, w) log{p(w)/q(w)} = \sum_{w \in G} p(d, w) log ρ(w) である(ここで,Gはq(w)に含まれる単語の集合).
k個の核の文書を取り出すには,与えられた文書をKL_d(p||q)の高い順k個取り出せばよい(Max-KLアルゴリズム).ただし,このアルゴリズムはすべての文書の長さが同じであるという仮定が入ってしまうため,次のOne-Class Co-Clustering (OCCC) アルゴリズムを提案する.
- 単語をρ(w)の高い順に整列し,スコアの高いm_r個の単語を取り出して,Rとする.
- 与えられたそれぞれの文書を,単語集合Rから成るbag-of-wordsで表現する
- このようにしてp(w)を表現した文書に対し,KL_d(p||q)を計算し,スコアの高い順にk件の文書を取り出す
ここで,m_rはパラメータである(推定方法は論文参照).本論文はさらに,EMアルゴリズムを用いた1クラス・クラスタリング手法(LTB)を提案しているが,実験ではOCCCがLTBと同等な性能を出すと報告している.
提案手法は非常にシンプルだが,その理論的裏付けを真面目にやっていて,すごい.
Trackback URL
Comment & Trackback
Comment feed
Comment