2008.11.01
Regular Expression Learning for Information Extraction
Yunyao Li; Rajasekar Krishnamurthy; Sriram Raghavan; Shivakumar Vaithyanathan; H. V. Jagadish.
Regular Expression Learning for Information Extraction.
文書群Dに対して,ある情報抽出のタスク(例えば電話番号の認識など)を遂行する初期正規表現R_0を適用して,マッチした文字列をM(R_0, D)で表す.このとき,マッチした文字列に対して,正例(実際に電話番号である場合)と負例(電話番号でない場合)のラベル付けがなされているとし,それぞれM_p(R_0, D), M_n(R_0, D)で表す.このとき,正例を識別するためのF1スコアが最大にになるように,初期正規表現R_0を反復的に変形し,目的のタスクを遂行する正規表現を獲得する.正規表現R_iをR_{i+1}に変形するときは,マッチする文字列の範囲が狭くなる方向,すなわちM(R_i, D) ⊂ M(R_{i+1}, D)となるように,ルール変形を行う.ある正規表現R_iから変形しうる候補を列挙し,その中でF1スコアが最も大きくなる候補を選択する反復アルゴリズムで,初期正規表現R_0を改善していく.
個人的な意見では,正規表現上で学習アルゴリズムを組み立てずに,目的の表現を受理する有限状態オートマトンを自動獲得する方が,より自然なアプローチだと思う(というか,そういう研究はありそう).
Trackback URL
Comment & Trackback
Comment feed
Comment