Google 推出 Gemini Omni,这是一种利用先进物理学和现实知识进行视频创作、编辑和讲故事的尖端多模式人工智能。
Google 推出了 Gemini Omni,这是一种突破性的多模式 AI 模型,旨在无缝集成视频创作、编辑和讲故事。 Gemini Omni 于 2026 年 5 月 19 日宣布,以公司现有的 Gemini AI 生态系统为基础,将文本、图像、视频和音频组合成紧密的输出。首款产品 Gemini Omni Flash 正在全球范围内向 Google AI Plus、Pro 和 Ultra 订阅者以及 YouTube Shorts 和 YouTube Create App 用户推出。
Gemini Omni 的核心目标是通过允许用户使用自然语言提示创建和编辑视频,从而实现视频制作的民主化。例如,Omni 可以将简单物体的视频转换为动态科幻场景,或根据用户指令实时调整灯光和物理效果。与传统编辑工具不同,Omni 利用深入的现实世界知识和对物理的直观理解,使输出超越单纯的视觉保真度,成为有意义的故事讲述。
高级功能让 Omni 与众不同
主要功能包括对话式视频编辑、实时场景调整以及集成多种输入类型(例如视频、图像和文本)的能力。用户可以通过迭代步骤优化视频,确保角色、环境和动作的连续性。例如,Omni 可以模拟流体动力学或动能等复杂的物理现象,使用户能够以最小的努力创建逼真的可视化效果。
此外,该平台还包括用于开发模仿用户声音和肖像的数字化身的工具,尽管谷歌强调这些功能是在严格的道德准则下实施的。所有人工智能生成的视频都将带有不易察觉的 SynthID 水印,以确保内容透明度。
市场和行业背景
此次发布之际,Gemini 的名字正受到多个领域的关注。虽然谷歌的 Gemini Omni 专注于人工智能和创造力,但截至 2026 年 5 月 8 日,Gemini 加密货币代币 (GEMINI) 的交易价格为 0.0001207 美元,在过去 24 小时内小幅上涨 3.1%。尽管其市值较低,为 119,684 美元,但该代币仍然是有关更广泛的 Gemini 品牌生态系统持续讨论的一部分,其中包括加密货币交易所 Gemini 最近的 1 亿美元私募投资。
Google 的举措也恰逢人们对多模式 AI 功能的兴趣日益浓厚。通过将 Gemini Omni 等工具集成到 YouTube 和 Google Flow 等平台中,该公司的目标很可能是占领消费者和企业市场。开发人员和企业客户将在未来几周内通过 API 访问 Omni,从而开辟与第三方应用程序集成的途径。
对内容创作者的影响
对于创作者来说,Gemini Omni 可以显着简化工作流程。早期测试人员报告说,该模型简化了复杂的任务,例如生成主题视觉效果或将音频同步到视频元素。其将创意表达与科学准确性相结合的能力(例如为蛋白质折叠等技术主题设计粘土动画解释器)使其成为跨行业的多功能工具。
Gemini Omni Flash 通过 YouTube 和 Gemini 应用向数百万用户推出,为 Google 在人工智能驱动的内容创建领域占据主导地位提供了明显的优势。然而,随着其他科技巨头和初创公司竞相发布自己的多模式人工智能解决方案,竞争非常激烈。
下一步是什么?
Google 战略性推出 Gemini Omni Flash,为人工智能驱动的创造力的进一步发展奠定了基础。随着 API 和更多功能(例如更广泛的音频支持)的出现,该平台的功能可能会在未来几个月内得到扩展。目前,内容创作者、企业用户和业余爱好者都拥有了一个新工具,可以重新定义想法如何变为现实。
