试用 Gemini 2.0 Flash 原生图像生成功能

2025年3月12日
Kat Kampf Product Manager
Nicole Brichtova Product Manager Google DeepMind

去年 12 月,我们首次向受信任的测试人员推出了 Gemini 2.0 Flash 中的原生图像输出功能。如今,我们将为 Google AI Studio 目前支持的所有地区内的开发者提供该功能。您可以在 Google AI Studio 和 Gemini API 中使用 Gemini 2.0 Flash (gemini-2.0-flash-exp) 的实验性版本来测试该新功能。

Gemini 2.0 Flash 通过结合多模态输入、增强推理和自然语言理解来创建图像。

以下是一些 2.0 Flash 多模态输出的示例:


1. 文本和图像相结合

使用 Gemini 2.0 Flash 讲述故事时,该模型会在讲述过程中插入各种图片,并且图中的角色和设置将始终保持一致。向该模型提供反馈后,它将重述故事或改变其绘画风格。

Google AI Studio 中的故事和插图生成

2. 通过对话编辑图像

您可以与 Gemini 2.0 Flash 进行多轮自然语言对话,借此编辑图像。该功能非常适合用来迭代图像,使其至臻完美;或者用来同时探索不同的创意。

当您在 Google AI Studio 中通过多轮对话来编辑图像时,整个对话过程中的上下文将保持不变。

3. 理解世界

与许多其他图像生成模型不同,Gemini 2.0 Flash 可利用现实世界知识和增强推理来创建正确的图像。这使得该模型非常适合用来创建逼真的详细图像,例如食谱插图。然而,尽管该模型追求准确性,但和所有其他语言模型一样,其知识储备广泛而笼统,无法保证绝对性和完整性。

Google AI Studio 中的食谱说明,文本和图像输出相互交错

4. 文本渲染

大多数图像生成模型难以准确渲染长序列文本,通常会造成格式不佳、字符难以辨认或拼写错误。内部基准测试表明,与领先的其他竞争模型相比,2.0 Flash 具有更强的渲染能力,非常适合用来创建广告、社交帖子甚至邀请函。

Google AI Studio 中长文本渲染的图像输出

立即开始使用 Gemini 绘制图像

通过 Gemini API 开始使用 Gemini 2.0 Flash。有关图像生成功能的更多信息,请参阅相关文档

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)
Python

无论您是要构建 AI 代理、开发具有精美视觉效果的应用(例如带插图的互动式故事),还是通过对话尝试各种视觉效果创意,您只需要 Gemini 2.0 Flash 这一个模型就能添加文本和生成图像。我们非常期望看到开发者使用原生图像输出功能创建的内容,而您的反馈也将帮助我们尽快完成生产就绪型版本。