谷歌周二推出了 Gemini Omni,这是一种新的多模式 AI 模型,该模型将公司的 Gemini AI 模型与其媒体生成工具(包括 Veo、Nano Banana 和 Genie)相结合。
这一消息是在 Google I/O 2026 期间发布的,DeepMind 首席执行官 Demis Hassabis 将 Gemini Omni 描述为“我们的新模型,可以根据任何输入创建任何内容。”
“它将 Gemini 的智慧与我们最好的生成媒体模型相结合,将世界理解、多模态和编辑提升到了新的水平,”哈萨比斯说。
Google 表示,第一个版本 Gemini Omni Flash 将通过该公司的 AI 电影制作平台 Flow 和专注于 AI 辅助音乐创作的 Flow Music 推出。
We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video.
It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing 🧵 pic.twitter.com/GAtqzr0VIV
— Google DeepMind (@GoogleDeepMind) May 19, 2026
哈萨比斯称 Omni 是“迈向通用人工智能的一步”,并表示 Google 在过去一年中将 Gemini 扩展为“能够理解和模拟世界的世界模型人工智能”。
Google 的 Omni 推出建立在 Nano Banana 的流行之上,Nano Banana 是该公司早期的 AI 图像编辑模型,去年 9 月帮助 Gemini 登上了苹果应用商店的榜首。 Nano Banana 广泛用于 meme 生成和对话式图像编辑,自 2022 年 OpenAI 聊天机器人推出以来,短暂帮助 Gemini 在应用下载量和 Google 搜索兴趣方面首次超越 ChatGPT。
在本月早些时候的 Decrypt 对比中,Nano Banana 2 在动画插图和空间构图测试中优于 OpenAI 的 GPT Image 2,而 OpenAI 的模型在照片真实感和文本渲染方面表现更好。谷歌现在似乎正在通过 Gemini Omni 将许多编辑功能扩展到视频中。
在演示过程中,Google 演示了 Omni 生成解释蛋白质折叠的粘土动画风格的教育视频。该公司还展示了对话式编辑工具,通过添加新的视觉元素和改变周围环境来修改自拍视频。
Google 表示,即使用户对视频进行更改,Omni 也可以保持相同的角色、背景和动作一致,而这是许多 AI 视频模型都面临的难题。该公司还表示,Omni 使用 Gemini 的推理能力来理解更广泛的指令,因此用户可以描述他们想要的场景,而无需手动解释每个细节。
该公司还推出了 Flow Agent,这是一款集成到 Google Flow 中的人工智能助手,可以集思广益场景、组织资源、建议情节更改以及批量编辑项目。
其他更新包括 Flow Tools,它允许用户使用自然语言提示创建自定义编辑工作流程,而无需编码经验。
Hassabis 表示,Google 正从视频生成开始,但计划扩大对 Omni 的访问范围,并将其描述为 Gemini 多模式设计背后的长期愿景。
“这始终是我们与 Gemini 的目标,也是我们从一开始就将其打造为多式联运的原因,”他说。
Google 没有立即回复 Decrypt 的置评请求。
