Google 推出 Gemini Omni — 可以“模拟世界”的下一代 AI 视频生成器

谷歌周二推出了 Gemini Omni，这是一种新的多模式 AI 模型，该模型将公司的 Gemini AI 模型与其媒体生成工具（包括 Veo、Nano Banana 和 Genie）相结合。

这一消息是在 Google I/O 2026 期间发布的，DeepMind 首席执行官 Demis Hassabis 将 Gemini Omni 描述为“我们的新模型，可以根据任何输入创建任何内容。”

“它将 Gemini 的智慧与我们最好的生成媒体模型相结合，将世界理解、多模态和编辑提升到了新的水平，”哈萨比斯说。

Google 表示，第一个版本 Gemini Omni Flash 将通过该公司的 AI 电影制作平台 Flow 和专注于 AI 辅助音乐创作的 Flow Music 推出。

We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video.

It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing 🧵 pic.twitter.com/GAtqzr0VIV

— Google DeepMind (@GoogleDeepMind) May 19, 2026

哈萨比斯称 Omni 是“迈向通用人工智能的一步”，并表示 Google 在过去一年中将 Gemini 扩展为“能够理解和模拟世界的世界模型人工智能”。

Google 的 Omni 推出建立在 Nano Banana 的流行之上，Nano Banana 是该公司早期的 AI 图像编辑模型，去年 9 月帮助 Gemini 登上了苹果应用商店的榜首。 Nano Banana 广泛用于 meme 生成和对话式图像编辑，自 2022 年 OpenAI 聊天机器人推出以来，短暂帮助 Gemini 在应用下载量和 Google 搜索兴趣方面首次超越 ChatGPT。

在本月早些时候的 Decrypt 对比中，Nano Banana 2 在动画插图和空间构图测试中优于 OpenAI 的 GPT Image 2，而 OpenAI 的模型在照片真实感和文本渲染方面表现更好。谷歌现在似乎正在通过 Gemini Omni 将许多编辑功能扩展到视频中。

&amp;amp;lt;span data-mce-type="bookmark" style="显示：内联块；宽度：0px；溢出：隐藏；行高：0；" class="mce_SELRES_start"&amp;amp;gt;&amp;amp;lt;/span&amp;amp;gt;

在演示过程中，Google 演示了 Omni 生成解释蛋白质折叠的粘土动画风格的教育视频。该公司还展示了对话式编辑工具，通过添加新的视觉元素和改变周围环境来修改自拍视频。

Google 表示，即使用户对视频进行更改，Omni 也可以保持相同的角色、背景和动作一致，而这是许多 AI 视频模型都面临的难题。该公司还表示，Omni 使用 Gemini 的推理能力来理解更广泛的指令，因此用户可以描述他们想要的场景，而无需手动解释每个细节。

该公司还推出了 Flow Agent，这是一款集成到 Google Flow 中的人工智能助手，可以集思广益场景、组织资源、建议情节更改以及批量编辑项目。

Google 推出 Gemini Spark：一款 24/7 的人工智能代理，希望让您放弃 OpenClaw

其他更新包括 Flow Tools，它允许用户使用自然语言提示创建自定义编辑工作流程，而无需编码经验。

Hassabis 表示，Google 正从视频生成开始，但计划扩大对 Omni 的访问范围，并将其描述为 Gemini 多模式设计背后的长期愿景。

“这始终是我们与 Gemini 的目标，也是我们从一开始就将其打造为多式联运的原因，”他说。

Google 没有立即回复 Decrypt 的置评请求。