2008.08.29
Once Upon a Time in the West – Hard-Fi
イギリスで£5で購入したCD.前々から買いたいとは思っていたけど,微妙に古くなっているCDなので,イギリスに行くまで我慢した.
Hard-Fiは,前作のデビューアルバム “Stars of CCTV” が発売から5か月かけて1位(UK)になった実力派.本作は発売週で1位(UK)だったらしい.トラック#1のSuburban Knightsの「うぉーうぉーうぉー」がかっこよい.
Blog presented by Naoaki Okazaki
2008.08.29
イギリスで£5で購入したCD.前々から買いたいとは思っていたけど,微妙に古くなっているCDなので,イギリスに行くまで我慢した.
Hard-Fiは,前作のデビューアルバム “Stars of CCTV” が発売から5か月かけて1位(UK)になった実力派.本作は発売週で1位(UK)だったらしい.トラック#1のSuburban Knightsの「うぉーうぉーうぉー」がかっこよい.
2008.08.27
以前の日記にちょこっと書いたEMNLPですが,結果はポスターでした.レビューがなぜか4つ付いていたという話をしましたが,oral or posterの振り分けに使われたようです.ちなみに,ディフェンスしてもrecommendationは全く変化しませんでした.基本的にはレビューアーの意見に激しく同意という書き方でレスポンスしたので(よわ)….
こちらの論文は略語の話ではなく,動詞の活用語尾,動詞から名詞への派生,綴りのバリエーションなど,語レベルで文字が変化する過程を,辞書から機械学習を用いて自動獲得する話です.今年の人工知能学会で発表した内容がベースになっていて,詳細なアルゴリズムや欠けていた実験を追加したものになっています.手法自体は汎用的であるものの,かなり細かいテーマを扱っているので,イントロダクションから細かい議論に持ち込み,手法の有用性や必然性が伝わるように工夫しました.締切直前は,学生がAMTAに書いていた論文の手直しをしていて,溜まったフラストレーションをこの論文を書いて発散していました.
カメラレディに必要な実験を追加したり,実際のシステムを作成して公開するなど,今後も継続して育てていこうと思っています.
といっても,帰国したのは2日前ですが.週末には登山があるので,何とか早く時差を直したいけど,この時間になかなか眠たくならず.
Coling 2008での自分での発表は,「識別的アライメントモデルを用いた略語抽出」というタイトルで,略語の定義の抽出というタスクを,機械翻訳で研究されてきたアライメント問題として定式化するというものです.略語定義の抽出タスクを,機械学習に基づいた自然なアプローチで解いてみました.個人的には,略語抽出の決定版と位置付けていて,今後軽微な修正や改良が必要かも知れませんが,英語の略語抽出はこの研究で十分だと考えています.
以下のような例文を考えます.
We evaluated the effect of thyriod transcription factor 1 (TTF-1).
英語の略語抽出では,もっぱら,括弧表現の内側に略語,括弧表現の外側に定義があると仮定するのが主流です.逆の(括弧表現の内側に定義が来る)ケースや,括弧表現以外で略語が定義されるケースもありますが,ちゃんとした文書を扱っている分には,無視できるくらい少ないことが分かっています.さて,括弧表現TTF-1が略語であるかどうかは,その前の表現に `T’, `T’, `F’, `1′ の起源となる文字があるかどうかで決まります.人間は,
という,略語の起源に関する情報をたちどころに認識できます.この略語の起源の関係を,略語の文字 y と定義の文字 x の間のアライメント a であると捉え,条件付き確率 P(a|x,y) を最大エントロピー法で近似し,なんとかコンピュータに分からせようというのが研究のアイディアです.日本語で書かれた詳細は,言語処理学会の年次大会の論文を参照してください.
発表後にたくさん質問して頂けたのは嬉しい限りでしたが,質問者の意図をくみ取ることができなかった質問が一つあったり,もっと良い応答をすべき質問があって,悔いが残りました.ただ,質問の英語そのものは,ほぼ100%聞き取れていたので,質問者ときちんとディスカッションをする能力を身につけるのが,今後の課題です.
日本の方から,「アライメントの経路の列挙にDPを使っているのかどうか」質問をされました.ある文が与えられた時,その略語アライメントの候補は高々100程度であることが実験的に分かっているので,DPなどは使っていないというのが私の回答でした.「xi に略語文字 yj が割り当て可能であるためには,xi-1, xi-2, …, x1 において yj を割り当てていないことが必要」というヒストリ依存の問題があって,通常のsum-productやmax-productのアルゴリズムでは難しく,constrainted inferencingが必要になります.略語抽出アライメントの場合は,略語候補の枝狩りがかなりできてしまうので,constrainted inferencingをしなくても,十分であるというのが,もっとマシな答えになります.
帰りの飛行機でこの質問のことを考えていたら,現状の実装の問題点に気付きました.現状の実装では,入力文に対する可能なアライメントにおけるすべての素性を書き出して,学習器に渡しています.ところが,複数のアライメントが共通に含むノードやエッジがたくさんあるはずなので,この実装方法は無駄だらけです.すなわち,ノードIDとそのノードにおけるすべての素性,エッジIDとそのエッジにおけるすべての素性を書き出しておき,各アライメントはノードIDとエッジIDの参照リストで構成しておく方が,同じノードやエッジに関与する素性のスコア計算を無駄に繰り返すことがなくなり,学習・タグ付けの両方が速くなるはずです.論文に書けないくらい軽微な工夫なのですが,なんで気付かなかったのか….
そろそろ寝てみます.
2008.08.17
午前3時(日本時間午前11時)起床.なかなか良い起床時間だが,これ以上遅くならないように注意しよう.
パスポートにUKのエントリークリアランスが貼りっぱなしなので,入国審査でなぜ来たのかしつこく質問される.渡航目的を「sightseeing」と言ったら,「Did you live in UK before?」とか「Are you going to work in UK?」「Are you familiar with Manchester?」「What kind of sightseeing?」など,質問責めに遭う.まぁ向こうが怪しむのは当然なので,適当に答えて入国.
空港からManchester Piccadillyに向かう電車の中で,野生のうさぎときつねを見かける.Northern Railのディーゼル車の轟音と共に,懐かしい気持ちに浸る.マンチェスターの市内は,以前とあんまり変わっていない.金曜の夕方はパブでビールを飲んでいる人たちが楽しそうだった.
土曜日はCoNLLの初日に出かける.Regina Barzilayの招待講演,”Climbing the Tower of Babel: Advances in unsupervised multilingual learning” を興味深く聞く.2言語の並列コーパスからGIZA++でアライメントを取り,両方の言語における2つのHMMを1つに統合したモデルを作り,ベイズ推定でunsupervised POS taggingを実現する話がメインだった.ただ,並列コーパスもsupervisionの一種なので,「unsupervisedとsupervisedの性能のgapを埋める」という大目標に近づいているかというと,やや疑問が残った.
会場のUniversity Placeは,Manchester Musiumの反対側に出来た新しい建物.そういえば,マンチェスターに住んでいた時は,この辺ずっと工事をしていたなぁと思い出す.この辺は食べるところが少ない(というか知らないだけかも)ので,日本から来た皆さんを引き連れて昼食をどこにするか困ったが,無難なところでBBC近くのKROバーにした.マンチェスターにしては美味しくて,個人的には感心したが,他の人は高く(£9)て,味が微妙と思ったに違いない.時間があればChineseやThaiを食べに行きたいのだが・・・.
私が宿泊しているホテルから会場に行くにはPiccadilly Gardensからバスに乗るのが一番早いので,Stagecoachのウェブサイトを調べ,MagicriderというMagic Busの142, 143, 145が一週間£5で乗り放題のチケットを購入することにした.
2008.08.14
Coling 2008の出張に向けて,荷物詰め込み作業中.荷物の大半は着替えとインスタント食品です.
日本からイギリスに行くと,まず時差(日本から-8時間)の関係で朝早く(午前0時頃)起きるようになります.もしくは,0時頃にお腹がすいて寝られなくなります.マンチェスターのレストランは22時くらいが閉店時間ですし,24時間営業のラーメン屋,牛丼屋みたいなものはありません.パブに行ってもスナック類を除く食料は食べられません(たいてい18~20時くらいでキッチンが終了します)ので,0時だとTescoやSomerfieldみたいなスーパーでサンドイッチやお菓子を買う位しかできません.
そうなると,日本からカップラーメンや味噌汁,レトルト食品を持って行った方が美味しくて,安上がりになります.カップラーメンや味噌汁は中華街で購入出来るのですが,種類が限られているし,2倍くらい高いので,マンチェスターに行くときは,必ず日本食をトランクに詰めていくことにしています.また,この方式を1週間続けていれば,日本の生活リズムのまま,イギリスに滞在することができ(ただし,18時頃に眠くなるので,夜に飲みに行く日は気合いで乗り切る),日本に帰ったときの時差ぼけが無くなります.0時から7時までホテルでゆっくり仕事が出来るのも,良いです.
マンチェスターは日本の旅行ガイドに載っていないと思うので,ついでに簡単に情報をまとめておきます.
お盆の時期に学会があると忙しすぎですね.おとといまでは実家に帰省していて,スライドの準備はほとんど出来ず,EMNLPのresponseレターを出すのが精一杯.何で私の論文のレビューアーが4人もいたんだろう? しかも#1, #2, #3のレビューアーのrecommendationは同じで,#4のレビューアーのrecommendationが低めなので,これは当落線上から落ちたということなのだろうか・・・.