StepFun 的语音 AI 在所有基准测试中均名列前茅。它也听到你的叹息

上海人工智能实验室 StepFun 本周发布 StepAudio 2.5 Realtime。它是一个端到端的实时语音模型——音频输入，音频输出，中间没有文本转换。它支持中文和英文，根据基准测试，它似乎相当不错。

该实验室因构建优于大型系统的文本法学硕士而闻名。 Step 3.5 Flash 是一个拥有 1960 亿个参数的模型，今年早些时候在四项推理基准测试中击败了拥有数万亿个参数的竞争对手。（参数赋予人工智能模型广泛的知识，并且更普遍地转化为更好的性能。）

配音工作遵循相同的剧本，并希望让角色扮演变得很酷，尤其是在较长的会话中。

性格问题

人工智能角色系统有一种特定的故障模式：OOC，或不符合角色的行为——模型在对抗压力下偏离其指定的角色。这种现象非常普遍，而且是所有人工智能模型设计时都存在的缺陷。你与他们互动越多，他们就会忘记一些东西。
&amp;amp;amp;amp;amp;lt;span style="display: inline-block; width: 0px; Overflow: hide; line-height: 0;" data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

StepFun 表示，它通过针对角色扮演的 RLHF 解决了这个问题，即根据人类反馈进行强化学习，专门应用于角色稳定性，而不仅仅是一般质量。训练数据从 10,000 多个人类创作的角色种子开始，通过算法扩展到百万级特征矩阵。

想法：训练数据具有足够的多样性，即使是奇怪的长尾对话也不会影响模型的特性。

技术上更有趣的说法是副语言理解——该模型在制定响应之前从音频本身读取非语言声学线索，例如语速、情绪语气和年龄。

在副语言理解基准（一项测量情绪和语速等声学特征感知的客观测试）上，得分为 0-100，StepAudio 达到 82.18。 GPT Realtime 1.5 得分为 80.46，Gemini Live 得分为 58.05，豆宝 Realtime 得分为 16.09。

StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs

人工评估基准（真实用户通过移动应用程序与模型对话，由人工评分者按 0-100 分制评分）StepAudio 的得分为 80.41，GPT Realtime 1.5 的得分为 68.01，Gemini Live 的得分为 67.16。通过 API 以相同的 0-100 等级进行客观测试，一般对话质量为 86.36，而 GPT 为 81.60。

这些是 StepFun 自己的基准。随你所欲。但副语言学和口语问答环节的利润空间足够大，难以忽视。

StepFun 上下文

StepFun 由蒋大新于 2023 年 4 月创立，他在微软工作了 16 年，负责 Bing、Cortana 和 Azure 认知服务等项目。它是中国所谓的 AI Tiger 初创公司之一，迄今为止已筹集了约 17 亿美元。

OpenAI 的高级语音模式于 2024 年底推出，并设定了其他人追逐的基准。 StepFun 现在直接对其进行基准测试，并声称取得了胜利。

这次发布的产品包括一个名为“小月”的旗舰人工智能角色，StepFun 将其描述为“灵魂级伴侣”，旨在感觉就像给朋友发短信，而不是查询软件。意见、流行语、情感限制——完全可配置。

开发人员可以通过 API 构建自己的角色。完整文档位于 platform.stepfun.com，该模型现已上线。