Gemma 3n プレビュー版のお知らせ: パワフルで効率的なモバイルファースト AI

2025年5月20日
Lucas Gonzalez Product Manager
Rakesh Shivanna Principal Software Engineer

先日は、Gemma 3Gemma 3 QAT のリリースというエキサイティングな発表がありました。これらは、1 つのクラウド アクセラレータやデスクトップ アクセラレータで実行できる最先端のオープンモデル ファミリーです。本日はそれを受けて、AI を身近なものにするという私たちのビジョンをさらに前進させます。Gemma 3 はデベロッパーに強力な機能を提供していますが、そのビジョンを広げ、スマートフォン、タブレット、ノートパソコンといった毎日使うデバイスで直接動作する高機能リアルタイム AI に向かいます。

次世代のオンデバイス AI を実現し、Gemini Nano の機能向上をはじめとする多様なアプリケーションをサポートできるようにするため、新たに最先端のアーキテクチャを設計しました。この次世代の基盤は、Qualcomm Technologies、MediaTek、Samsung System LSI などのモバイル ハードウェアをリードする企業と密に連携して作成したものです。超高速なマルチモーダル AI 向けに最適化されており、真にパーソナルでプライベートな体験をオンデバイスで直接実現します。

Gemma 3n は、この画期的な共有アーキテクチャに基づいて開発された最初のオープンモデルです。デベロッパーの皆さんは、本日より早期プレビュー版としてこのテクノロジーを試すことができます。この高度なアーキテクチャは、次世代の Gemini Nano にも搭載されます。今年中には、Google アプリやオンデバイス エコシステムのさまざまな場所で、この機能が利用できるようになる予定です。この基盤は Android や Chrome などの主要プラットフォームで利用できるようになりますが、Gemma 3n を使うと、これをベースとして開発を始めることができます。

Chatbot Arena Elo scores
Chatbot Arena の Elo スコアで AI モデルをランク付けしたグラフ。スコア(上の数値)が高いほど、ユーザーに好まれることを示す。Gemma 3n は、人気の専用モデルとオープンモデルの両方で高いランクを獲得している。

Gemma 3n では、RAM 使用量を大幅に削減する Per-Layer Embeddings(PLE)という Google DeepMind のイノベーションを活用しています。もともとのパラメータ数は 5B と 8B ですが、このイノベーションにより、2B や 4B のモデルに匹敵するメモリ オーバーヘッドで、それよりも大きなモデルを実行できます。モバイル デバイスで動かすことも、クラウドからのライブストリーミングを用いることもでき、モデルが動的に使用するメモリの量は、わずか 2GB または 3GB となります。詳しくは、ドキュメントをご覧ください。

このモバイルファーストのアーキテクチャ イノベーションは、今後、Gemini Nano を搭載した Android や Chrome で利用できるようになります。Gemma 3n では、オープンモデルのコア機能とこのイノベーションを早期プレビュー版として試すことができます。

この投稿では、Gemma 3n の新機能、責任ある開発へのアプローチ、そして今すぐプレビュー版にアクセスする方法について説明します。


Gemma 3n の主な機能

Gemma 3n は、ローカルで実行される高速で低フットプリントな AI エクスペリエンス向けに設計されています。特徴は以下のとおりです。

  • オンデバイス パフォーマンスと効率の最適化: Gemma 3n は、モバイルでの応答の開始が約 1.5 倍高速で、品質も大幅に向上しており(Gemma 3 4B との比較)、メモリ フットプリントも削減されています。これは、Per Layer Embeddings、KVC 共有、高度なアクティベーション量子化といったイノベーションによる成果です。

  • Many-in-1 の柔軟性: アクティブ メモリ フットプリントが 4B のモデルには、最先端の 2B アクティブ メモリ フットプリントのサブモデルがネイティブにネストされています(MatFormer トレーニングを利用)。別のモデルをホストすることなく、その場でパフォーマンスと品質を動的にトレードオフできるので、柔軟性が向上します。さらに、Gemma 3n に mix’n’match 機能を導入し、特定のユースケースに最適なサブモデルを 4B モデルから動的に生成するようにしています。その際には、品質とレイテンシのトレードオフも考慮されます。この研究の詳細については、今後のテクニカル レポートで詳しく説明する予定です。

  • プライバシーファーストとオフライン対応: ローカルで実行できるので、ユーザーのプライバシーが尊重されます。また、インターネット接続が利用できなくても確実に動作します。

  • オーディオによるマルチモーダル理解の拡大: Gemma 3n は、オーディオ、テキスト、画像を理解して処理することができ、動画を理解する能力も大幅に向上しています。このオーディオ機能により、モデルで高品質な自動音声認識(音声文字変換)や翻訳(音声のテキスト翻訳)を行うことができます。また、複数の種類が混在した入力も受け取れるので、複雑なマルチモーダル インタラクションを理解できます。(近日公開予定)

  • 多言語機能の向上: 特に日本語、ドイツ語、韓国語、スペイン語、フランス語の多言語パフォーマンスが向上しています。この強力なパフォーマンスは、WMT24++(ChrF)で 50.1% など、多言語ベンチマークにも現れています。
MMLU performance
Gemma 3n の mix-n-match(事前トレーニング済み)機能について、MMLU パフォーマンスとモデルサイズとの関係を示したグラフ。

移動中に新たな体験を実現する

デベロッパーは、Gemma 3n を利用して次のようなことを実現できます。移動しながらでもインテリジェントなアプリケーションを利用できるので、新たな潮流を生み出すことができます。

  1. ユーザーの環境から得られる視覚情報や聴覚情報をリアルタイムに理解し、それに応答するライブ インタラクティブ エクスペリエンスを開発する


2. オーディオ、画像、動画、テキスト入力を組み合わせて理解を深め、状況に応じたテキストを生成できるようにする。すべての情報はオンデバイスで安全に処理される。


3. リアルタイム音声文字変換、翻訳、高度な音声駆動型インタラクションなど、オーディオ中心の高度なアプリケーションを開発する


概要と、作成できるエクスペリエンスの種類を紹介します。

Link to Youtube Video (visible only when JS is disabled)

力を合わせて責任ある開発を行う

最も重要なのは、私たちの責任ある AI 開発への取り組みです。Gemma 3n は、すべての Gemma モデルと同じく、厳格な安全性評価、データ ガバナンス、安全ポリシーに合わせたファインチューニングが実施されています。私たちは、オープンモデルに対して慎重なリスク評価を行い、AI の進化に合わせて継続的に手法を改善しています。


使ってみる: Gemma 3n のプレビュー版を試す

うれしいことに、本日よりプレビュー版として Gemma 3n をお届けします。


初期アクセス(すぐに利用できます):

  • Google AI Studio からクラウドベースで試す: Google AI Studio で、ブラウザから直接 Gemma 3n をお試しください。セットアップは必要ありません。すぐにテキスト入力機能を確認できます。

  • Google AI Edge でオンデバイスで開発する: ローカルで Gemma 3n を動かしたいデベロッパーの皆さんのために、Google AI Edge でツールとライブラリを提供します。テキストと画像について、理解や生成といった機能をさっそく試してみることができます。


Gemma 3n は、最先端の効率的な AI を誰でも使えるようにすることに向けた次の一歩です。本日のプレビュー版から、このテクノロジーが徐々に利用できるようになります。皆さんがこれで何を開発するのか、とても楽しみです。

この発表と Google I/O 2025 のすべての最新情報は、5 月 22 日以降に io.google でご覧いただけます。