Home > 8月, 2008

2008.08.29

Once Upon a Time in the West – Hard-Fi

イギリスで£5で購入したCD.前々から買いたいとは思っていたけど,微妙に古くなっているCDなので,イギリスに行くまで我慢した.

Hard-Fiは,前作のデビューアルバム “Stars of CCTV” が発売から5か月かけて1位(UK)になった実力派.本作は発売週で1位(UK)だったらしい.トラック#1のSuburban Knightsの「うぉーうぉーうぉー」がかっこよい.

2008.08.27

EMNLP

以前の日記にちょこっと書いたEMNLPですが,結果はポスターでした.レビューがなぜか4つ付いていたという話をしましたが,oral or posterの振り分けに使われたようです.ちなみに,ディフェンスしてもrecommendationは全く変化しませんでした.基本的にはレビューアーの意見に激しく同意という書き方でレスポンスしたので(よわ)….

こちらの論文は略語の話ではなく,動詞の活用語尾,動詞から名詞への派生,綴りのバリエーションなど,語レベルで文字が変化する過程を,辞書から機械学習を用いて自動獲得する話です.今年の人工知能学会で発表した内容がベースになっていて,詳細なアルゴリズムや欠けていた実験を追加したものになっています.手法自体は汎用的であるものの,かなり細かいテーマを扱っているので,イントロダクションから細かい議論に持ち込み,手法の有用性や必然性が伝わるように工夫しました.締切直前は,学生がAMTAに書いていた論文の手直しをしていて,溜まったフラストレーションをこの論文を書いて発散していました.

カメラレディに必要な実験を追加したり,実際のシステムを作成して公開するなど,今後も継続して育てていこうと思っています.

Colingから帰国

といっても,帰国したのは2日前ですが.週末には登山があるので,何とか早く時差を直したいけど,この時間になかなか眠たくならず.

Coling 2008での自分での発表は,「識別的アライメントモデルを用いた略語抽出」というタイトルで,略語の定義の抽出というタスクを,機械翻訳で研究されてきたアライメント問題として定式化するというものです.略語定義の抽出タスクを,機械学習に基づいた自然なアプローチで解いてみました.個人的には,略語抽出の決定版と位置付けていて,今後軽微な修正や改良が必要かも知れませんが,英語の略語抽出はこの研究で十分だと考えています.

以下のような例文を考えます.

We evaluated the effect of thyriod transcription factor 1 (TTF-1).

英語の略語抽出では,もっぱら,括弧表現の内側に略語,括弧表現の外側に定義があると仮定するのが主流です.逆の(括弧表現の内側に定義が来る)ケースや,括弧表現以外で略語が定義されるケースもありますが,ちゃんとした文書を扱っている分には,無視できるくらい少ないことが分かっています.さて,括弧表現TTF-1が略語であるかどうかは,その前の表現に `T’, `T’, `F’, `1′ の起源となる文字があるかどうかで決まります.人間は,

  • `T’: thriodの語頭の文字`t’に基づく
  • `T’: transcriptionの語頭の文字`t’に基づく
  • `F’: factorの語頭の文字`f’に基づく
  • `1′: 1の文字`1’に基づく

という,略語の起源に関する情報をたちどころに認識できます.この略語の起源の関係を,略語の文字 y と定義の文字 x の間のアライメント a であると捉え,条件付き確率 P(a|x,y) を最大エントロピー法で近似し,なんとかコンピュータに分からせようというのが研究のアイディアです.日本語で書かれた詳細は,言語処理学会の年次大会の論文を参照してください.

発表後にたくさん質問して頂けたのは嬉しい限りでしたが,質問者の意図をくみ取ることができなかった質問が一つあったり,もっと良い応答をすべき質問があって,悔いが残りました.ただ,質問の英語そのものは,ほぼ100%聞き取れていたので,質問者ときちんとディスカッションをする能力を身につけるのが,今後の課題です.

日本の方から,「アライメントの経路の列挙にDPを使っているのかどうか」質問をされました.ある文が与えられた時,その略語アライメントの候補は高々100程度であることが実験的に分かっているので,DPなどは使っていないというのが私の回答でした.「xi に略語文字 yj が割り当て可能であるためには,xi-1, xi-2, …, x1 において yj を割り当てていないことが必要」というヒストリ依存の問題があって,通常のsum-productやmax-productのアルゴリズムでは難しく,constrainted inferencingが必要になります.略語抽出アライメントの場合は,略語候補の枝狩りがかなりできてしまうので,constrainted inferencingをしなくても,十分であるというのが,もっとマシな答えになります.

帰りの飛行機でこの質問のことを考えていたら,現状の実装の問題点に気付きました.現状の実装では,入力文に対する可能なアライメントにおけるすべての素性を書き出して,学習器に渡しています.ところが,複数のアライメントが共通に含むノードやエッジがたくさんあるはずなので,この実装方法は無駄だらけです.すなわち,ノードIDとそのノードにおけるすべての素性,エッジIDとそのエッジにおけるすべての素性を書き出しておき,各アライメントはノードIDとエッジIDの参照リストで構成しておく方が,同じノードやエッジに関与する素性のスコア計算を無駄に繰り返すことがなくなり,学習・タグ付けの両方が速くなるはずです.論文に書けないくらい軽微な工夫なのですが,なんで気付かなかったのか….

そろそろ寝てみます.

2008.08.17

マンチェスター2日目

午前3時(日本時間午前11時)起床.なかなか良い起床時間だが,これ以上遅くならないように注意しよう.

パスポートにUKのエントリークリアランスが貼りっぱなしなので,入国審査でなぜ来たのかしつこく質問される.渡航目的を「sightseeing」と言ったら,「Did you live in UK before?」とか「Are you going to work in UK?」「Are you familiar with Manchester?」「What kind of sightseeing?」など,質問責めに遭う.まぁ向こうが怪しむのは当然なので,適当に答えて入国.

空港からManchester Piccadillyに向かう電車の中で,野生のうさぎときつねを見かける.Northern Railのディーゼル車の轟音と共に,懐かしい気持ちに浸る.マンチェスターの市内は,以前とあんまり変わっていない.金曜の夕方はパブでビールを飲んでいる人たちが楽しそうだった.

土曜日はCoNLLの初日に出かける.Regina Barzilayの招待講演,”Climbing the Tower of Babel: Advances in unsupervised multilingual learning” を興味深く聞く.2言語の並列コーパスからGIZA++でアライメントを取り,両方の言語における2つのHMMを1つに統合したモデルを作り,ベイズ推定でunsupervised POS taggingを実現する話がメインだった.ただ,並列コーパスもsupervisionの一種なので,「unsupervisedとsupervisedの性能のgapを埋める」という大目標に近づいているかというと,やや疑問が残った.

会場のUniversity Placeは,Manchester Musiumの反対側に出来た新しい建物.そういえば,マンチェスターに住んでいた時は,この辺ずっと工事をしていたなぁと思い出す.この辺は食べるところが少ない(というか知らないだけかも)ので,日本から来た皆さんを引き連れて昼食をどこにするか困ったが,無難なところでBBC近くのKROバーにした.マンチェスターにしては美味しくて,個人的には感心したが,他の人は高く(£9)て,味が微妙と思ったに違いない.時間があればChineseやThaiを食べに行きたいのだが・・・.

私が宿泊しているホテルから会場に行くにはPiccadilly Gardensからバスに乗るのが一番早いので,Stagecoachのウェブサイトを調べ,MagicriderというMagic Busの142, 143, 145が一週間£5で乗り放題のチケットを購入することにした.

2008.08.14

マンチェスター直前

Coling 2008の出張に向けて,荷物詰め込み作業中.荷物の大半は着替えとインスタント食品です.

日本からイギリスに行くと,まず時差(日本から-8時間)の関係で朝早く(午前0時頃)起きるようになります.もしくは,0時頃にお腹がすいて寝られなくなります.マンチェスターのレストランは22時くらいが閉店時間ですし,24時間営業のラーメン屋,牛丼屋みたいなものはありません.パブに行ってもスナック類を除く食料は食べられません(たいてい18~20時くらいでキッチンが終了します)ので,0時だとTescoやSomerfieldみたいなスーパーでサンドイッチやお菓子を買う位しかできません.

そうなると,日本からカップラーメンや味噌汁,レトルト食品を持って行った方が美味しくて,安上がりになります.カップラーメンや味噌汁は中華街で購入出来るのですが,種類が限られているし,2倍くらい高いので,マンチェスターに行くときは,必ず日本食をトランクに詰めていくことにしています.また,この方式を1週間続けていれば,日本の生活リズムのまま,イギリスに滞在することができ(ただし,18時頃に眠くなるので,夜に飲みに行く日は気合いで乗り切る),日本に帰ったときの時差ぼけが無くなります.0時から7時までホテルでゆっくり仕事が出来るのも,良いです.

マンチェスターは日本の旅行ガイドに載っていないと思うので,ついでに簡単に情報をまとめておきます.

  • 到着後について.Manchester Airportに着いたら,電車に乗ってManchester Piccadilly駅に向かいます.Palace Hotelに宿泊する人は,Manchester OxfordRoad駅の方が便利です.そこからタクシーやバス,徒歩でホテルに向かうことになると思います.
  • 電車の乗車券について.切符は窓口でも買えますが,不安なら自動券売機でも買えます.クレジットカード利用可.往復券(Return ticket)が片道の値段と大差ないことがよくあります.ロンドンなど,遠出をするときは,Virgin Trainなどで切符を予約しておくと,安いレートのチケットを購入出来る場合があります.予約して格安チケットを買うときは,往復よりも片道の方が安い場合が多いです.
  • 電車の乗り方.電光掲示板やモニター画面に行き先,ホーム番号,出発時刻が表示されていますので,それを確認します.ホーム欄に「BUS」と表示されていたら,振り替え輸送のバスという意味です.電車に乗るときの改札は滅多にありませんが,電車内での検札,Manchester市内の駅で電車を降りるときに検札されることはよくあります.忘れずに乗車券を買いましょう.乗車券は回収されないので,駅を出たら捨てて構いません.
  • タクシーの乗り方.運転手に行き先を告げ,OKが出たら後部座席に乗ります.運賃はメーターに表示されます.マンチェスターでぼったくりタクシーに遭遇したことはありませんので,ご安心を.だいたい10%くらいのチップを加え,きりの良い金額にして運転手に渡します.
  • バスの乗り方.バスに乗るのはそれほど難しくありませんが,停留所表示やアナウンスがないので,初めて行く所で降りるのは非常に難しいです.運転手に着いたら教えてくれと言っておくと良いですが,路線によってはバスが非常に混んでいるので,難しいかもしれません.バスに乗るときに行き先を告げると,バスの運転手が運賃を言うので,その通り支払います(たまに運賃が間違っていることがありますが,旅行者がクレームをつけるのは難しいと思います).バスの運賃はバス会社によってかなり差があります.一番高いのはStageCoachです.バスの路線を検索するときは,Travelineを使います.出発地と到着地の郵便番号を入れれば,その間のバス路線と所要時間が表示されます.
  • マンチェスターには,Metroshuttleという無料のバス路線が3つあって,これが非常に重宝します.市内をぐるぐる循環していますので,乗っておくと市内の概略がつかめると思います.Piccadilly駅からManchester大学のキャンパスを回るOxford Road Linkというバスもあって,こちらは運賃が50pです.
  • 気候について.マンチェスターの8月は,日本の春くらいの気候だと思います.イギリスの暑さのピークは8月ではなく6月なので,過ごしやすい日が続くと思います.雨が降りやすいので,置き傘は必ず携帯した方がよいです.
  • 水について.私は水道水を飲んでも問題ナシでしたが,気になるようであれば水を買いましょう.
  • 治安について.マンチェスターには非常に危険な地域(Moss Sideなど)がありますが,city centerの治安はそれほど悪く無いと思います.私は1年3ヶ月くらい住んでいて,昼夜問わず出歩いていましたが,危険な目に遭遇したことはありませんでした.ただ,日本よりも治安が悪いのは明らかなので,血気盛んな酔っぱらいの喧嘩,盗難,詐欺などに注意しましょう.
  • 中華街のスーパーは日本の飲料・食料が購入できるので,どんなものがあるのか,是非チェックしておきましょう.ポカリスエットの粉なども買えるので,体調を崩したときにも役に立ちます.

お盆の時期に学会があると忙しすぎですね.おとといまでは実家に帰省していて,スライドの準備はほとんど出来ず,EMNLPのresponseレターを出すのが精一杯.何で私の論文のレビューアーが4人もいたんだろう? しかも#1, #2, #3のレビューアーのrecommendationは同じで,#4のレビューアーのrecommendationが低めなので,これは当落線上から落ちたということなのだろうか・・・.