Google Gemini とオープンソースフレームワークでエージェントを開発する

2025年5月20日

Shrestha Basu Mallick Group Product Manager

Philipp Schmid Developer Relations Engineer

AI の世界は、AI エージェントの可能性に沸いています。AI エージェントは、ユーザーの指示によって自分の環境を認識し、意思決定を行って、特定の目標を達成する行動を起こすことができます。Google の Gemini モデルには、高度な推論、マルチモーダル、関数呼び出しの機能が搭載されているので、AI エージェント開発の強力な基盤となります。これをオープンソースフレームワークの活発なエコシステムと組み合わせれば、洗練されたエージェント型アプリケーションを作成できるツールキットが手に入ることになります。

この投稿では、LangGraph、CrewAI、LlamaIndex、Composio といった人気のオープンソースフレームワークと Google Gemini モデルを使って AI エージェントを開発する方法を説明します。各フレームワークはそれぞれ異なる強みを持っているので、どのようなシナリオに活用できるかについても触れたいと思います。

エージェントに Google Gemini モデルを使うべき理由

最新の Gemini 2.5 などの Gemini モデルでエージェントを開発すると、いくつかのメリットが得られます。

高度な推論と計画: Gemini モデルは論理的推論が得意で、複雑なタスクを管理可能なステップに分割できます。これはエージェント型ワークフローに不可欠な機能です。

関数呼び出し: Gemini モデルのネイティブ関数呼び出しを使うと、エージェントが外部ツール、API、データソースとシームレスにインタラクションし、実際にアクションを実行できます。

マルチモーダル: さまざまなデータタイプ（テキスト、画像、オーディオ、動画、コード）を処理して理解できるので、エージェントが世界と交流する能力が高まり、新たな可能性が開かれます。

ラージコンテキストウィンドウ: Gemini 2.5 などのモデルは、最大で 100 万トークンを処理することができます（近日中に 200 万に対応予定）。そのため、長期にわたるインタラクションや複雑なタスクを扱う場合でも、コンテキストを維持することができます。

エージェント型オープンソースフレームワーク: 概要

多くの場合、エージェントやユースケースの具体的な要件に基づいて、フレームワークを選ぶ必要があります。以下にエージェント開発の一般的なオプションを示します。それぞれのオプションで、得られるメリットやエージェント開発のアプローチが異なります。

LangGraph

LangGraph は LangChain の拡張機能です。ワークフローをグラフで表現することで、ステートフルなマルチアクターアプリケーションを開発できます。グラフの各ノードはステップ（LLM 呼び出しやツール実行など）を表し、エッジは制御フローを定義します。LangGraph は、複雑でステートフルなワークフローにおいて、エージェントの推論プロセスの可視性と制御が重要になる場合に最適です。LangGraph で Google Gemini モデルを使うと、それぞれのステップで高度な推論と関数呼び出しが可能になり、反復による改善やツールの利用ができるようになります。LangChain や LangGraph を使ってみましょう。

CrewAI

CrewAI は、自律型 AI エージェントのオーケストレーションとコラボレーションによって、複雑な目標を実現できるように設計されています。特定の役割、目標、バックストーリーを持つエージェントを定義し、タスクを割り当てることで、マルチエージェントシステムを簡単に開発できます。CrewAI は Google Gemini モデルとシームレスに連携できます。CrewAI エージェントに Gemini モデルを使うと、固有の役割を持つそれぞれのエージェントで、強力な推論や言語理解を利用できるようになるので、コラボレーションやタスク実行の効率が上がります。CrewAI を使ってみましょう。

LlamaIndex

LlamaIndex は、LLM とデータを接続することで、ナレッジエージェントを開発できるようにするフレームワークです。優れたデータの取り込み、インデックス作成、検索機能を持ち、デベロッパーがマルチエージェントワークフローを作成することで、さまざまな種類のナレッジワークを自動化できます。LlamaIndex は Gemini モデルと直接連携でき、Gemini を使ってエンベディングを生成したり、高度な検索戦略を利用したり、機密データに基づいて応答を合成したりできます。一般的な LLM トレーニングデータに含まれない情報について推論したり、質問に答えたりできるエージェントを作る際には、この点が重要になります。LlamaIndex は、テキストのみとマルチモーダルの両方の Gemini モデルをサポートしており、テキストと画像による RAG を実現できます。LlamaIndex を使ってみましょう。

Composio

Composio は、AI エージェントと外部ツールや API を簡単に連携させることに主眼を置いたフレームワークです。管理レイヤを通してさまざまな既存ツールの認証や実行が可能なので、エージェントのユニバーサルコネクタとして効率よく動作します。デベロッパーが API 認証を個別に管理したり、専用のツールラッパーを作成したりしなくても、エージェントが GitHub、Slack、Google Workspace、Notion などのサービスとすぐにインタラクションできます。Composio と Google Gemini モデルを組み合わせると、Gemini の関数呼び出し機能を使ってインテリジェントにツールを選択して利用できるので、エージェントがさまざまな現実のタスクに対応できます。Composio を使ってみましょう。

ベストプラクティスと次のステップ

Google Gemini モデルを使って AI エージェントの開発を始める準備はできましたか？以下で方法を紹介します。

適切なフレームワークを選んで使ってみる: 具体的なニーズに応じて、LangGraph、CrewAI、LlamaIndex、Composio などのフレームワークを選択します。

目的とスコープ: 最初に目的を明確に定義し、エージェントが実行すべきタスクを決めます。

反復と継続的な改善: エージェントの開発は反復作業です。シンプルなところから始め、頻繁にテストし、プロンプト、ツール、ロジックを改善します。

高度なエージェント型パターンの検討: 高度なエージェント設計リソースを活用し、自己修正、動的計画、記憶などのエージェント型パターンを調査して、エージェントの堅牢性を高めることを検討します。

プロンプトエンジニアリングの習得: Gemini のエージェント型機能が持つ可能性を最大限に活用するには、効果的なプロンプトが不可欠です。プロンプトのベストプラクティスをご覧ください。

Learn & integrate: Dive into Function Calling and comprehensive end-to-end example on how to build Agents with Google Gemini Models.

この発表と Google I/O 2025 のすべての最新情報は、5 月 22 日以降に io.google でご覧いただけます。

Google Gemini とオープンソース フレームワークでエージェントを開発する