导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

Google 推出 Gemini Omni — 可以“模拟世界”的下一代 AI 视频生成器

谷歌周二推出了 Gemini Omni,这是一种新的多模式 AI 模型,该模型将公司的 Gemini AI 模型与其媒体生成工具(包括 Veo、Nano Banana 和 Genie)相结合。

这一消息是在 Google I/O 2026 期间发布的,DeepMind 首席执行官 Demis Hassabis 将 Gemini Omni 描述为“我们的新模型,可以根据任何输入创建任何内容。”

“它将 Gemini 的智慧与我们最好的生成媒体模型相结合,将世界理解、多模态和编辑提升到了新的水平,”哈萨比斯说。

Google 表示,第一个版本 Gemini Omni Flash 将通过该公司的 AI 电影制作平台 Flow 和专注于 AI 辅助音乐创作的 Flow Music 推出。

哈萨比斯称 Omni 是“迈向通用人工智能的一步”,并表示 Google 在过去一年中将 Gemini 扩展为“能够理解和模拟世界的世界模型人工智能”。

Google 的 Omni 推出建立在 Nano Banana 的流行之上,Nano Banana 是该公司早期的 AI 图像编辑模型,去年 9 月帮助 Gemini 登上了苹果应用商店的榜首。 Nano Banana 广泛用于 meme 生成和对话式图像编辑,自 2022 年 OpenAI 聊天机器人推出以来,短暂帮助 Gemini 在应用下载量和 Google 搜索兴趣方面首次超越 ChatGPT。

在本月早些时候的 Decrypt 对比中,Nano Banana 2 在动画插图和空间构图测试中优于 OpenAI 的 GPT Image 2,而 OpenAI 的模型在照片真实感和文本渲染方面表现更好。谷歌现在似乎正在通过 Gemini Omni 将许多编辑功能扩展到视频中。

在演示过程中,Google 演示了 Omni 生成解释蛋白质折叠的粘土动画风格的教育视频。该公司还展示了对话式编辑工具,通过添加新的视觉元素和改变周围环境来修改自拍视频。

Google 表示,即使用户对视频进行更改,Omni 也可以保持相同的角色、背景和动作一致,而这是许多 AI 视频模型都面临的难题。该公司还表示,Omni 使用 Gemini 的推理能力来理解更广泛的指令,因此用户可以描述他们想要的场景,而无需手动解释每个细节。

该公司还推出了 Flow Agent,这是一款集成到 Google Flow 中的人工智能助手,可以集思广益场景、组织资源、建议情节更改以及批量编辑项目。

Google 推出 Gemini Spark:一款 24/7 的人工智能代理,希望让您放弃 OpenClaw

其他更新包括 Flow Tools,它允许用户使用自然语言提示创建自定义编辑工作流程,而无需编码经验。

Hassabis 表示,Google 正从视频生成开始,但计划扩大对 Omni 的访问范围,并将其描述为 Gemini 多模式设计背后的长期愿景。

“这始终是我们与 Gemini 的目标,也是我们从一开始就将其打造为多式联运的原因,”他说。

Google 没有立即回复 Decrypt 的置评请求。