Crear agentes con Google Gemini y marcos de trabajo de código abierto

20 DE MAYO DE 2025

Shrestha Basu Mallick Group Product Manager

Philipp Schmid Developer Relations Engineer

El mundo de la IA atrae por el gran potencial de los agentes de IA, entidades que los usuarios pueden dirigir para percibir su entorno, tomar decisiones e implementar medidas para lograr objetivos específicos. Los modelos Gemini de Google, con sus capacidades avanzadas de razonamiento, multimodalidad y llamada a función, proporcionan una base sólida para crear agentes de IA. Además del vibrante ecosistema de marcos de trabajo de código abierto, los desarrolladores ahora cuentan con las herramientas necesarias para crear aplicaciones agénticas sofisticadas.

En esta entrada, te explicaremos cómo crear agentes de IA con modelos de Google Gemini utilizando marcos de trabajo de código abierto populares, como LangGraph, CrewAI, LlamaIndex o Composio. Te contaremos cómo cada marco de trabajo aprovecha sus fortalezas en diferentes situaciones.

¿Por qué debes usar modelos de Google Gemini en tus agentes?

Los modelos de Gemini, incluido el más reciente, Gemini 2.5, ofrecen varias ventajas para el desarrollo de agentes:

Planificación y razonamiento avanzados: los modelos de Gemini tienen un excelente razonamiento lógico y pueden dividir tareas complejas en pasos manejables, lo que es esencial para los flujos de trabajo ágiles.

Llamada a función: la llamada a función nativa de los modelos de Gemini permite a los agentes interactuar sin problemas con herramientas, APIs y fuentes de datos externas, por lo que pueden realizar acciones del mundo real.

Multimodalidad: la capacidad de procesar y comprender varios tipos de datos (texto, imágenes, audio, video y código) ofrece nuevas posibilidades para que los agentes puedan interactuar con el mundo de diversas maneras.

Ventana de contexto extenso: los modelos como Gemini 2.5 pueden procesar hasta 1 millón de tokens (próximamente hasta 2 millones), lo que permite a los agentes mantener el contexto en interacciones extensas y tareas complejas.

Marco de trabajo agéntico de código abierto: una descripción general rápida

La elección del marco de trabajo suele depender de los requisitos específicos de tu agente o de los casos de uso. A continuación, se presentan algunas opciones populares. Cada una ofrece diferentes fortalezas y enfoques para el desarrollo de agentes.

LangGraph

LangGraph, una extensión de LangChain, te permite crear aplicaciones con estado y multiactor representando los flujos de trabajo como gráficos. Cada nodo del gráfico es un paso (p. ej., una llamada de LLM o la ejecución de una herramienta) y los perímetros definen el flujo de control. LangGraph es excelente para flujos de trabajo complejos y con estado donde la visibilidad y el control sobre el proceso de razonamiento del agente son fundamentales. Si utilizas los modelos de Google Gemini con LangGraph, puede sacar provecho de su razonamiento avanzado y de su llamada a función para cada paso, lo que permite la reflexión iterativa y el uso de herramientas. Comienza a usar LangChain o LangGraph.

CrewAI

CrewAI se diseñó para orquestar agentes de IA autónomos que colaboran para lograr objetivos complejos. Simplifica el desarrollo de sistemas multiagente, ya que te permite definir agentes con roles, objetivos e historias de fondo específicos, y luego asignarles tareas. CrewAI se integra perfectamente con los modelos de Google Gemini. Al potenciar tus agentes de CrewAI con modelos de Gemini, puedes aprovechar su excelente capacidad de razonamiento y comprensión del lenguaje para el rol especializado de cada agente, lo que permite establecer una colaboración y ejecución de tareas más efectivas. Comienza a usar CrewAI.

LlamaIndex

LlamaIndex es un marco de trabajo que se diseñó para crear agentes de conocimiento utilizando LLM conectados a tus datos. Se destaca en la ingestión de datos, la indexación y la provisión de capacidades de recuperación, lo que permite a los desarrolladores crear flujos de trabajo multiagente que pueden automatizar diferentes tipos de trabajo de conocimiento. LlamaIndex ofrece integraciones directas con los modelos de Gemini, de modo que puedes usarlos para incorporar generación y estrategias de recuperación avanzadas, y sintetizar respuestas basadas en tus datos privados. Esto es fundamental para crear agentes que puedan razonar y responder preguntas sobre información que no está presente en los datos generales del entrenamiento del LLM. LlamaIndex es compatible con modelos de Gemini de solo texto y multimodales, por lo que permite usar RAG sobre texto e imágenes. Comienza a usar LlamaIndex.

Composio

Composio es un marco de trabajo centrado en simplificar la integración de herramientas y APIs externas en agentes de IA. Proporciona una capa administrada para la autenticación y ejecución de una amplia gama de herramientas prediseñadas, que actúa de manera efectiva como un conector universal para tus agentes. Esto permite a los desarrolladores brindar rápidamente a sus agentes capacidades para interactuar con servicios como GitHub, Slack, Google Workspace y Notion, entre otros, sin necesidad de administrar autenticaciones de APIs individuales o crear wrappers de herramientas personalizados. Composio con modelos de Google Gemini aprovecha las capacidades de llamada a función de Gemini para seleccionar y utilizar de forma inteligente estas herramientas, de modo que tus agentes puedan realizar una amplia gama de tareas del mundo real. Comienza a usar Composio.

Prácticas recomendadas y próximos pasos

¿Tienes todo listo para empezar a crear agentes de IA con modelos de Google Gemini hoy mismo? Aquí te explicamos cómo hacerlo:

Seleccione el marco de trabajo adecuado y pon manos a la obra: elige un marco de trabajo basado en tus necesidades específicas, como LangGraph, CrewAI, LlamaIndex, Composio u otros.

Objetivo y alcance: comienza con un objetivo bien definido y las tareas que tu agente debe realizar.

Itera y refina continuamente: el desarrollo del agente es iterativo. Comienza de manera simple, haz pruebas con frecuencia y refina las instrucciones, las herramientas y la lógica.

Explora patrones agénticos avanzados: investiga patrones agénticos, como la autocorrección, la planificación dinámica y la memoria para agentes más sólidos, utilizando nuestros recursos avanzados de diseño de agentes.

Domina la elaboración de instrucciones: las instrucciones efectivas son clave para desbloquear las capacidades agénticas de Gemini. Echa un vistazo a nuestras prácticas recomendadas para instrucciones.