- 2025-05-07: Gemma-2-Llama Swallow 2B PT, 2B IT, 9B PT, 9B IT, 27B PT, 27B ITを公開しました。
Gemma-2-Llama Swallowシリーズは、Gemma 2 2B, 9B, 27Bの事前学習モデルに対して、日本語の能力や知識を重視して継続事前学習および指示チューニングを行った大規模言語モデルです。
- Gemma-2-Llama Swallow 2B PT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-2b-pt-v0.1
- Gemma-2-Llama Swallow 2B IT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1
- Gemma-2-Llama Swallow 9B PT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-pt-v0.1
- Gemma-2-Llama Swallow 9B IT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1
- Gemma-2-Llama Swallow 27B PT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-27b-pt-v0.1
- Gemma-2-Llama Swallow 27B IT v0.1: https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1
Gemma 2からの継続事前学習モデルではありますが、ソースコードの学習データの合成にLlama 3.3 70B Instructを用いているため、Gemma-2-Llama Swallowのライセンスは米Meta社のLlama 3.3ライセンスも継承しています。 Gemma利用規約の利用制限に抵触せず、かつLlama 3.3ライセンスに従う場合において、研究や商業目的などで利用できます。
2024年のGemma Developer Dayでの発表のとおり、東京科学大学とGoogleは日本におけるオープンモデルの開発で緊密に連携してきました。そのパートナーシップの主要な1つがTPU Research Cloudプログラムです。これにより、Googleからのコンピューティングリソースへの支援を利用し、本研究に活用しております。
Gemma-2-Llama Swallowシリーズの性能をSwallow Leaderboardの評価タスク(日本語理解・生成10タスク、英語理解・生成10タスク、日本語MT-Bench)で評価しました。要点は以下の通りです。
- Gemma-2-Llama Swallow 2B/9B/27B PT v0.1は日本語理解・生成タスクにおいて、同規模のLLMの中で最も高い性能を示した。
- 特に、Gemma-2-Llama Swallow 9B/27B PT v0.1は日本語理解・生成タスクにおいて、それぞれワンランク上の規模のLLMと同等の性能を示した(Gemma-2-Llama Swallow 9B PT v0.1はGemma 2 27Bと同等、Gemma-2-Llama Swallow 27B PT v0.1はLlama 3.1 Swallow 70B v0.1と同等)。
- Gemma-2-Llama Swallow 2B/9B IT v0.1は日本語理解・生成タスクおよび日本語MT-benchにおいて、同規模のLLMの中で最も高い性能を示した。
なお、このページのグラフはSwallow Leaderboardに基づいて動的に描画されています。
2B事前学習モデル
Gemma-2-Llama Swallow 2B PT v0.1を1Bから5Bまでの超小型の事前学習(事後学習無し)モデルと比較します。 グラフ中のモデルは日本語理解・生成の平均スコアの順に並んでいます。 Gemma 2 2Bからの継続事前学習により、Gemma-2-Llama Swallow 2B PT v0.1の日本語理解・生成の平均スコアは0.348から0.421まで改善しました(+7.3ポイントの向上)。 逆に、英語理解・生成の平均スコアは0.439から0.426に1.3ポイント低下しましたが、日本語理解・生成タスクのスコアが大幅に伸びていますので、限られたパラメータで元々の能力を維持するのは難しいと思います。 なお、同じくGemma 2 2Bからの継続事前学習モデルであるGemma 2 Baku 2Bと比較すると、Gemma-2-Llama Swallow 2B PT v0.1は日本語と英語の両方においてより高い平均スコアを達成しています。
次に、Googleから公開されているGemmaの最新バージョンであるGemma 3と比較します。 日本語理解・生成の平均スコアにおいて、Gemma-2-Llama Swallow 2B PT v0.1はGemma 3 1B (0.223) とGemma 3 4B (0.417) を上回っています。 より最新で規模の大きいGemma 3 4Bを上回るのは意外に思われるかもしれませんが、Gemma 3 4Bは画像入力に対応したマルチモーダルモデルであることに注意が必要です。 Gemma Team (2025) によると、Gemma 3 4Bの正確なパラメータ数は約4.3Bで、そのうち0.4Bが画像エンコーダ (SigLIP) に使われていて、かつ画像と言語にまたがるデータでパラメータを学習しています。 一方、Gemma-2-Llama Swallow 2B PT v0.1の正確なパラメータ数は約2.6Bで、そのすべてが言語タスクのために学習されていますし、英語理解・生成タスクの平均で見ると、Gemma 3 4Bの0.501に対してGemma-2-Llama Swallow 2B PT v0.1は0.426ですので、英語ではGemma 3の方に優位性があります。
最後に、その他のモデルと比較します。 日本語理解・生成の平均スコアでトップとなったのはQwen2.5 3B (正確なサイズは3.1B) の0.442で、Gemma-2-Llama Swallow 2B PT v0.1 (正確なサイズは2.6B) は0.421の2位でした。 Gemma-2-Llama Swallow 2B PT v0.1にとって、0.5Bのパラメータ数のハンディはモデルの総パラメータの約19%に相当しますので、この性能差が生じるのはやむを得ないと考えています。 なお、Llama 3.2 1BやLlama 3.2 3Bと比較しても、Gemma-2-Llama Swallow 2B PT v0.1の方が日本語理解・生成タスクで高いスコアを達成しています。 2Bクラスの超小型事前学習モデルで日本語を処理するときは、Gemma-2-Llama Swallow 2B PT v0.1かQwen2.5 3Bを用いると良いでしょう。
9B事前学習モデル
Gemma-2-Llama Swallow 9B PT v0.1を5Bから13Bまでの小型の事前学習(事後学習無し)モデルと比較します。 Gemma 2 9Bからの継続事前学習により、Gemma-2-Llama Swallow 9B PT v0.1の日本語理解・生成の平均スコアは0.500から0.558まで改善しました(+5.8ポイントの向上)。 この日本語理解・生成の平均スコア (0.558) はLlama 3.1 Swallow 8B v0.2 (0.499)、Qwen2.5 7B (0.512)、Gemma 3 12B (0.518) を大きく上回っており、このクラスでトップの性能です。 また、Gemma-2-Llama Swallow 9B PT v0.1は中型のLLMであるGemma 2 27B (0.546) やLlama 3.1 70B (0.566) と同等の性能を示しており、小型のLLMでありながら一回り大きいLLMに迫っています。 さらに、英語理解・生成の平均スコアは継続事前学習により0.597から0.595に低下しましたが、その差は0.2ポイントに収まりました。 このことから、Gemma-2-Llama Swallow 9B PT v0.1は小規模な日本語LLMとして、有力な選択肢と言えます。
27B事前学習モデル
Gemma-2-Llama Swallow 27B PT v0.1を13Bから100Bまでの中型の事前学習(事後学習無し)モデルと比較します。 Gemma 2 27Bからの継続事前学習により、Gemma-2-Llama Swallow 27B PT v0.1の日本語理解・生成の平均スコアは0.546から0.594まで改善しました(+4.8ポイントの向上)。 また、2Bや9Bのモデルとは異なり、英語理解・生成の平均スコアは0.655から0.655への上昇(+1.0ポイント)に転じました。 30B前後の規模のLLMが少ないため、このカテゴリには2倍以上のパラメータで構成される70Bクラスを混ぜていますが、Gemma-2-Llama Swallow 27B PT v0.1の性能は70BクラスのLlama 3.1 Swallow 70B v0.1やLlama 3 Swallow 70Bに匹敵しています。
2B事後学習モデル
Gemma-2-Llama Swallow 2B IT v0.1を1Bから5Bまでの超小型の事後学習モデルと比較します。 グラフ中のモデルは日本語MT-benchの平均スコアの順に並んでいます。 Gemma 2 2Bからの継続事前学習、および独自に実施した事後学習(Gemma 2 27B ITの模倣学習)により、Gemma-2-Llama Swallow 2B IT v0.1の日本語理解・生成の平均スコア、英語理解・生成の平均スコア、日本語MT-benchの平均スコアはそれぞれ、0.424、0.431、0.597になりました。 Gemma 2 2B ITでは、これらのスコアはそれぞれ、0.392、0.489、0.569でしたので、日本語理解・生成は3.2ポイントの上昇、英語理解・生成は5.8ポイントの減少、日本語MT-benchは2.8ポイントの上昇と言えます。 Gemma-2-Llama Swallowの事後学習では、日本語の対話性能を重視しているため、事後学習データに英語のものを配合していません。 これに対し、Gemma 2の事後学習で英語理解・生成の平均スコアが0.439から0.489へ5.0ポイントも上昇していますので、英語理解・生成タスクのスコアの落ち込みを解消するには、英語での事後学習を検討する必要がありそうです。
同じくGemma 2 2BファミリーであるGemma 2 JPNやGemma 2 Baku 2B ITと比較すると、Gemma-2-Llama Swallow 2B IT v0.1は日本語理解・生成タスクと日本語MT-benchタスクでより高い性能を達成しています。 また、3B以下の規模のモデルと比較すると、Gemma-2-Llama Swallow 2B IT v0.1は日本語理解・生成タスク、および日本語MT-benchタスクで最も高いスコアを達成しました。 なお、Gemma 3 4B ITはモデルのパラメータ数が多いこともありますが、日本語MT-benchのスコア (0.724) で他を圧倒しました。
9B事後学習モデル
Gemma-2-Llama Swallow 9B IT v0.1を7Bから13Bまでの小型の事後学習モデルと比較します。 Gemma 2 9Bからの継続事前学習、および独自に実施した事後学習(Gemma 2 27B ITの模倣学習)により、Gemma-2-Llama Swallow 9B IT v0.1の日本語理解・生成の平均スコア、英語理解・生成の平均スコア、日本語MT-benchの平均スコアはそれぞれ、0.546、0.611、0.749になりました。 Gemma 2 9B ITでは、これらのスコアはそれぞれ、0.536、0.649、0.736でしたので、日本語理解・生成は1.0ポイントの上昇、英語理解・生成は3.8ポイントの減少、日本語MT-benchは1.3ポイントの上昇と言えます。 9B以下のモデルと比較すると、Gemma-2-Llama Swallow 9B IT v0.1は日本語理解・生成タスクおよび日本語MT-benchタスクで最も高い性能を示しました。 また、13Bまでのモデルと比較すると、Gemma-2-Llama Swallow 9B IT v0.1はGemma 3 12B ITに次ぐ性能となりました。 なお、ここでもGemma 3 12B ITの日本語MT-benchのスコア (0.821) の高さが際立っています。
27B事後学習モデル
最後に、Gemma-2-Llama Swallow 27B IT v0.1を13Bから100Bまでの中型の事後学習モデル、およびGPT-3.5、GPT-4o (gpt-4o-2024-08-06)、GPT-4o-mini (gpt-4o-mini-2024-07-18) と比較します。 ただし、OpenAIのGPTシリーズに関しては、英語理解・生成タスクの一部の評価を公平に実施できないため、スコアを欠損としています(詳細は評価時に発生した問題の「OpenAI系列モデルの評価設定」を参照)。 Gemma 2 27Bからの継続事前学習、および独自に実施した事後学習(Gemma 2 27B ITの模倣学習)により、Gemma-2-Llama Swallow 27B IT v0.1の日本語理解・生成の平均スコア、英語理解・生成の平均スコア、日本語MT-benchの平均スコアはそれぞれ、0.602、0.687、0.759になりました。 Gemma 2 27B ITと比較すると、日本語理解・生成タスクでは性能向上が見られますが、英語理解・生成タスクおよび日本語MT-benchタスクでは性能向上が得られませんでした。
Gemma 3 27B ITはこのカテゴリでも日本語MT-benchでトップのスコアを収めています(27Bのマルチモーダル基盤モデルでGPT-4oを上回っているのは凄いです)。 Gemma-2-Llama Swallow 27B IT v0.1の日本語理解・生成タスクの平均スコア(0.602)は、GPT-4o (0.646)、Llama 3.3 Swallow 70B Instruct v0.4 (0.613) に続く3番手ですし、日本語MT-benchのスコアも悪くはありません。 以上のことから、Gemma-2-Llama Swallow 27B IT v0.1は日本語が強いオープンなLLMとして、有力な選択肢になると思います。
Gemma-2-Llama Swallowは以下の手順で構築されています。
- Gemma-2-Llama Swallow 事前学習モデル (PT): Gemma 2に対して継続事前学習 (Fujii et al., 2024) を行う(語彙拡張は無し)
- Gemma-2-Llama Swallow 事後学習モデル (IT): Gemma-2-Llama Swallow事前学習モデルに教師ありファインチューニング(SFT)を行う
学習データの構成はほぼLLama 3.3 Swallow 70Bを踏襲しています。
継続事前学習で用いたコーパスは以下の通りです。
- Cosmopedia
- Dclm-baseline-1.0 (Li et al., 2024)
- FineMath-4+ (Allal et al., 2025)
- English Wikipedia
- Japanese Wikipedia
- Laboro ParaCorpus
- Swallow Corpus Version 2から厳選した教育的価値の高いテキスト
- Swallow Education ClassifierのWikipediaベース分類器によるトップ10%
- Swallow Education ClassifierのLLMベース分類器によるトップ10%
- 教育的価値の高いテキストから合成した QA 形式の日本語合成テキスト
- Swallow Code: - The Stack v2 (Lozhkov et al., 2024) に品質フィルタおよびLLMによる整形を適用
なお、Swallow Code v0.3にはLlama 3.3 Swallow 70Bによる合成データが含まれていますので、Gemma-2-Llama SwallowはLlama 3.3の派生モデルと見なされます。これに伴い、モデル名の先頭の単語に”Llama”の文字列を含めています。
事後学習で用いたコーパスは以下の通りです。
以降では、Gemma-2-Llama Swallowに特有の内容だけを説明します。
Tensor Processing Unit (TPU) 上での継続事前学習
Gemma-2-Llama Swallowの継続事前学習と事後学習は、TPU v6eクラスタ上でMaxTextを用いて実施しました。Fully Sharded Data Parallel (FSDP) 3 相当のシャーディングを使用して学習をしています。Vector Memory (VMEM) の設定の最適化とXLA/LIBTPUの非同期Collective Fusion・通信計算オーバーラップを併用し、従来設定比でおよそ30%のスループット向上を達成しています。Arecordを直接ストリーミングしながら、オンザフライでトークン化する方式を採用し、事前のトークン化を不要にしました。
チェックポイントを独立した非同期スレッドでGoogle Cloud Storageへ逐次転送しているため、チェックポイントの保存処理でTPUがアイドルになることを防いでいます。プリエンプトの通知を受け取ると、直ちに最新のチェックポイントを退避させ、インスタンスの再起動後にすぐ学習を再開しています。
参考文献
- Gemma Team: Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Rivière, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Etienne Pot, Ivo Penchev, Gaël Liu, Francesco Visin, Kathleen Kenealy, Lucas Beyer, Xiaohai Zhai, Anton Tsitsulin, Robert Busa-Fekete, Alex Feng, Noveen Sachdeva, Benjamin Coleman, Yi Gao, Basil Mustafa, Iain Barr, Emilio Parisotto, David Tian, Matan Eyal, Colin Cherry, Jan-Thorsten Peter, Danila Sinopalnikov, Surya Bhupatiraju, Rishabh Agarwal, Mehran Kazemi, Dan Malkin, Ravin Kumar, David Vilar, Idan Brusilovsky, Jiaming Luo, Andreas Steiner, Abe Friesen, Abhanshu Sharma, Abheesht Sharma, Adi Mayrav Gilady, Adrian Goedeckemeyer, Alaa Saade, Alex Feng, Alexander Kolesnikov, Alexei Bendebury, Alvin Abdagic, Amit Vadi, András György, André Susano Pinto, Anil Das, Ankur Bapna, Antoine Miech, Antoine Yang, Antonia Paterson, Ashish Shenoy, Ayan Chakrabarti, Bilal Piot, Bo Wu, Bobak Shahriari, Bryce Petrini, Charlie Chen, Charline Le Lan, Christopher A. Choquette-Choo, CJ Carey, Cormac Brick, Daniel Deutsch, Danielle Eisenbud, Dee Cattle, Derek Cheng, Dimitris Paparas, Divyashree Shivakumar Sreepathihalli, Doug Reid, Dustin Tran, Dustin Zelle, Eric Noland, Erwin Huizenga, Eugene Kharitonov, Frederick Liu, Gagik Amirkhanyan, Glenn Cameron, Hadi Hashemi, Hanna Klimczak-Plucińska, Harman Singh, Harsh Mehta, Harshal Tushar Lehri, Hussein Hazimeh, Ian Ballantyne, Idan Szpektor, Ivan Nardini et al. 2025. Gemma 3 Technical Report. arXiv:2503.19786.
- Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
大規模言語モデルSwallowの研究開発は、産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の「次世代人工知能・ロボットの中核となるインテグレート技術開発」プロジェクト(JPNP18002)の「熟練者観点に基づき、設計リスク評価業務における判断支援を行う人工知能適用技術の開発」、文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」、その他の支援によって実施されました。モデル学習の計算環境として、GoogleからTPU Research Cloud (TRC) の支援を受けました。