昨年、Google AI Edgeは、Android、iOS、Web上でつの初期オンデバイス小型言語モデル(SLM)への対応を発表しました。本日、私たちは新しいGemma 3およびGemma 3nモデルを含む、を超えるモデルへの対応を新たに拡大したことを、LiteRT Hugging Faceのコミュニティを通じて発表できることを嬉しく思います。
Gemma 3nは、Google AI Edge経由で早期プレビューとして利用可能で、テキスト、画像、動画、音声入力に対応する、Gemmaシリーズ初のマルチモーダルなオンデバイス小型言語モデルです。新たに提供されるRAG(Retrieval Augmented Generation )およびFunction Callingライブラリと組み合わせることで、エッジ環境上で革新的なAI機能のプロトタイピングと構築に必要なすべての要素が揃います。
LiteRTのHugging Faceコミュニティでは、選択可能なモデルのリストが拡大し続けています。これらのモデルはどれでもダウンロードして、わずか数行のコードでデバイス上で簡単に実行できます。すべてのモデルはモバイルおよびウェブ向けに最適化され、変換済みです。モデルの実行方法についての詳細な手順は、ドキュメントやHugging Faceの各モデルカードに記載されています。
これらのモデルをカスタマイズするには、ベースモデルをファインチューニングし、その後、適切なAI Edgeライブラリを使用して変換および量子化を行います。Colabでは、Gemma 3 1Bモデルのファインチューニングから変換までのすべてのステップを紹介しています。
最新リリースの量子化ツールでは、より高品質なint4ポストトレーニング量子化を可能にする新しい量子化スキームが導入されました。多くのモデルでデフォルトとなっているデータ型bf16と比較して、int4量子化は言語モデルのサイズを2.5~4倍に圧縮でき、レイテンシとピークメモリ使用量を大幅に削減します。
今年初めに、Gemma 3 1Bを発表しました。サイズはわずか529MBで、モバイルGPU上で最大2,585トークン/秒のプリフィル速度を実現し、1秒以内に1ページ分のコンテンツを処理可能です。Gemma 3 1Bは非常に軽量なため、多くのデバイスでの利用が可能で、エンドユーザーがアプリ内でダウンロードする必要のあるファイルサイズも最小限に抑えられます。
本日、サポート対象モデルのラインナップにGemma 3nの早期プレビューを追加できることを嬉しく思います。2Bおよび4Bのパラメータバリアントは、テキスト、画像、動画、音声といったネイティブ入力すべてに対応しています。テキストと画像モダリティはすでにHugging Faceで公開されており、音声も近日中に追加予定です。
Gemma 3nは、開発者がデバイスのリソースをフルに活用できるエンタープライズ向けユースケースに最適で、モバイル環境でもより大規模なモデルの利用を可能にします。たとえば、ネット接続のない現場技術者が部品の写真を撮り、その場で質問することができます。倉庫やキッチンなどの現場でも、作業員が両手をふさがれた状態で音声によって在庫を更新することができます。
Google AI Edgeにもたらされる最もエキサイティングな新機能の つは、デバイス上のRetrieval Augmented Generation ( RAG )の堅牢なサポートです。RAGを使用すると、微調整を必要とせずに、アプリケーションに固有のデータを使用して小さな言語モデルを拡張できます。1000ページの情報や1000枚の写真から、最も関連性の高いデータを見つけてモデルにフィードするのに役立ちます。
AI Edge RAGライブラリは、サポートされているすべての小型言語モデルと互換性があり、RAGパイプライン全体を柔軟にカスタマイズすることができます。データベース、チャンク分割手法、検索ロジックなど、各構成要素をアプリケーションに応じて自由に変更できます。このライブラリは現在Androidで利用可能で、今後さらに多くのプラットフォームへの対応も予定されています。AI Edge RAGを使用することで、オンデバイスの生成AIアプリケーションにユーザーにとって意味のある具体的な情報を組み込むことができ、より高度でインテリジェントな機能を実現できます。
オンデバイスの言語モデルを本当にインタラクティブにするために、オンデバイス関数呼び出しを導入しました。AI Edge Function Callingライブラリは現在Androidで利用可能で、今後さらに多くのプラットフォームへの対応が予定されています。このライブラリには、オンデバイス言語モデルとの統合、アプリケーション関数の登録、レスポンスの解析、関数の実行に必要なすべてのユーティリティが含まれています。ドキュメントを参照して、ぜひ自分でも試してみてください。
この強力な機能により、言語モデルはアプリケーション内の事前定義済みの関数やAPIをいつ実行すべきかをインテリジェントに判断できるようになります。たとえば、サンプルアプリでは、自然言語でフォームに入力するプロセスに関数呼び出しを活用する方法を紹介しています。医療アプリの例では、予約前に患者の履歴を尋ねるシナリオにおいて、ユーザーが音声で個人情報を入力すると、アプリはそれをテキストに変換し、必要な情報を抽出した上で、各フィールドに対応するアプリ固有の関数を呼び出してフォームに自動入力します。
関数呼び出しライブラリは、Pythonのツールシミュレーションライブラリと組み合わせて使用することもできます。このツールシミュレーションライブラリは、合成データの生成と評価を通じて、特定の関数に特化したカスタム言語モデルの作成を支援し、オンデバイスでの関数呼び出しの精度を向上させます。
私たちは、新しいモダリティを含む、エッジ上での最新かつ高性能な小型言語モデルのサポートを今後も継続していきます。 新しいモデルのリリース情報については、LiteRT Hugging Faceコミュニティをぜひご確認ください。また、RAGおよび関数呼び出しライブラリも、今後さらに多くの機能や対応プラットフォームの拡張を予定しています。
さらに、Google AI Edgeに関する最新情報として、**新しいLiteRT APIや、オンデバイスでのベンチマークと評価を幅広くサポートする新サービス AI Edge Portal**にもご注目ください。
この発表や、Google I/O 2025のすべての最新情報は、5月22日以降に io.google にてご覧いただけます。
これらのリリースを支えてくださった以下のGooglerの皆さまに、心より感謝申し上げます:Advait Jain, Akshat Sharma, Alan Kelly, Andrei Kulik, Byungchul Kim, Chunlei Niu, Chun-nien Chan, Chuo-Ling Chang, Claudio Basile, Cormac Brick, Ekaterina Ignasheva, Eric Yang, Fengwu Yao, Frank Ban, Gerardo Carranza, Grant Jensen, Haoliang Zhang, Henry Wang, Ho Ko, Ivan Grishchenko, Jae Yoo, Jingjiang Li, Jiuqiang Tang, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Marissa Ikonomidis, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Mogan Shieh, Mohammadreza Heydary, Na Li, Pauline Sho, Pedro Gonnet, Ping Yu, Pulkit Bhuwalka, Quentin Khan, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Steven Toribio, Suleman Shahid, T.J. Alumbaugh, Tenghui Zhu, Terry (Woncheol) Heo, Tyler Mullen, Vitalii Dziuba, Wai Hon Law, Weiyi Wang, Xu Chen, Yi-Chun Kuo, Yishuang Pang, Youchuan Hu, Yu-hui Chen, Zichuan Wei