Home > 2月, 2010

2010.02.23

μ

先週まで論文執筆モードだったので,ご報告が遅れましたが,娘の名前は心優(みゆ)にしました.この名前を聞いて「当て字っぽくて読めねー」と感じるか,「ありがちな名前」と感じるかで,最近の子供の名前に対する精通度が分かります.人気の名前はあまり付けたくなかったのですが,2009年の名前のランキングに普通に出てきます.文字通り「心優しい」ですが,「優」を漢語林で引くと,「上品で美しい」「みやびやか」「おだやか」「しとやか」「情深い」「のびやか」「ゆるやか」など,女の子にはうってつけの多義が並べられています.

名前を決めるのは本当に大変でした.考えれば考えるほど,自分の探索空間が足りているのか不安になりました.結局は,コンピュータが生成した6,084個(読みで数えた数)の名前の候補から,私と嫁で一つ一つチェックしながら結論を出しました.

名前の候補を生成する流れは,次の通りです.

  1. 名前辞典などを見ながら,名前に使いたい漢字とその読みを入力する
  2. 姓名判断に基づき,よい名前の画数の組み合わせを調べ,入力する
  3. 名前はひらがなの読みにして3文字以内,漢字では2文字もしくは3文字として,可能な名前の候補(漢字と読み)を全列挙する
  4. Google Nグラムコーパスを使って,名前の漢字と読みの頻度が閾値以下のものは刈る.

1はひたすら本を見ながら入力する作業です.日本語の名前には,漢字の読みをほぼ無尽蔵に作り出せる「名乗り」という特徴があります.例えば,「美」という字の音読みは「ビ」,訓読みは「うつく-しい」ですが,「美咲」「美結」など,名前の中では何の違和感もなく「み」と読めます.これは,「み」という名乗りが,一般的に知れ渡っているからです.

IMEの辞書データなど,名乗りを収録していそうな電子データを探したのですが,見つからなかったので,自分で入力することにしました.自分が使いたい漢字だけ読みを入力すればよいし,そもそも名前に使える漢字は常用漢字と人名用漢字の2930字が上限なので,普段の研究で正解コーパスを作る作業よりは,はるかに楽でした.後の処理が楽になるよう,画数毎に入力しておきます.こんな感じです.

[3]
弓	きゅう ゆみ み ゆ
才	さい さ た たえ とし
子	し す こ ず たか ちか とし ね
女	じょ にょ にょう おんな め こ たか よし
小	しょう ちいさい こ お さ ささ
夕	せき ゆう ゆ
千	せん ち かず ゆき
万	まん ばん よろず かず かつ たか つむ ま

[4]
月	つき げつ がつ つき つぎ づき
元	げん がん もと あさ ちか はる まさ ゆき よし
心	しん こころ きよ ここ さね なか み むね もと
仁	じん に きみ さと と ひと み めぐみ よし
日	にち じつ ひ か あき はる ひる
文	ぶん もん ふみ あや いと とも のり み や
友	ゆう とも すけ ゆ

2は,姓名判断により,名前の1文字目及び2文字目を何画にすればよいか求めます.簡単な数式があるのですが,さしあたって自分の苗字に対してだけ機能すればよいので,本や参考資料を元に,可能な画数の組み合わせを入力し,制約条件としました.いろいろな流派や,旧字体を使うか新字体を使うかという問題があるのですが,一般的なものに準拠するようにしました.画数はそれほど重視していないのですが,可能な画数の組み合わせは結構あるので,この画数の組み合わせの中から名前の読みと漢字を生成することにしました.日本人の名前の漢字の分布が,姓名判断によってどのくらい偏っているのか調べると,楽しそうだと思いました.

3は,スクリプトを書いて総当たりに生成するだけです.4により,Google Nグラムコーパスに出現しない名前の読みや,漢字の組み合わせを削除すると,6,084個の候補が生成されました.この中で,女の子の名前としてふさわしくないものを手作業で削除すると,名前の候補は485個まで減りました.この作業も,日頃の研究からするとずいぶん楽な作業なのですが,女の子の名前らしさを表現するfeatureは何なのか,考えさせられる作業でした.読みにしたときに最後に来るひらがなには,かなりパターン化されている感じがしました.

あとは,一つ一つじっくり見ながら検討する段階に入ります.コンピュータが生成した名前を見ていると,「万桜(まお)」「才華(さいか)」「智咲(ちさ)」など,思いもつかなかったものがいくつかあって,感心させられました.

全部コンピュータが作ったような話になっていますが,実際には名前の候補を最初にある程度選んでありました.他の名前候補をコンピュータで探そうとしたものの,最初のインスピレーションが最後まで勝ってしまったというオチでした.やはり,名前で大切なのは読みの雰囲気で,最終的には人間の感性ですね.