研究发现，听不见的音频攻击可以劫持人工智能语音模型

攻击方法针对的是大型音频语言模型 (LALM)，该模型可以处理语音命令并与外部工具和应用程序交互。 “训练这个信号只需要半个小时，然后，因为这个信号与上下文无关，所以无论用户说什么，你都可以随时使用它来攻击目标模型，”主要作者、博士生孟晨说。浙江大学的学生在声明中说道。 攻击的原理是修改数字音频波形内的数值，其方式人类听众无法察觉，但仍会影响人工智能模型解释信号的方式。研究人员表示，即使剪辑中包含合法的用户指令，受操纵的音频也可以覆盖或重定向模型的行为。 <iframe loading="lazy" src="https://myriad.markets/embed/market/claude-mythos-released-by-june-30" width="100%" height="415px">&amp;lt;span style="display: inline-block;宽度：0 像素；溢出：隐藏；行高: 0;" data-mce-type="bookmark" class="mce_SELRES_start"&gt;&lt;/span&amp;gt;

AudioHijack 与传统的提示注入攻击不同，因为它不会操纵用户对 AI 所说的内容。相反，它会改变音频信号本身，将隐藏的指令嵌入到人类听不到的声音中。研究人员表示，这使得攻击更难防御，因为它绕过了旨在检测可疑文本提示的保护措施。

研究人员在 13 个开源 AI 语音模型上测试了 AudioHijack，发现它可以让它们拒绝请求、传播虚假信息、插入有害链接、改变个性或执行用户从未要求的操作，包括网络搜索、文件下载和包含个人数据的电子邮件。这些攻击还针对使用类似技术的 Microsoft 和 Mistral 的商业语音人工智能系统。

研究称：“之前对生成模型的许多攻击都要求攻击者完全控制最终的音频输入和给予模型的原始指令，本质上是充当用户。” “在这里，攻击者仅操纵模型正在处理的音频数据，这使得在其他人使用模型时攻击模型成为可能。”

根据研究，可能的传递方式包括在线视频、音乐剪辑、语音笔记或上传到人工智能转录服务的 Zoom 通话音频。该团队还表示，未发表的后续工作在实时人工智能语音聊天中展示了类似的攻击。

研究人员表示，监控模型的内部注意力机制是他们测试的最有效的防御措施。然而，他们还发现，了解防御的攻击者可以降低操纵强度，同时保持攻击的大部分有效性。

“这些单点防御很难抵御我们的攻击，因为我们发现这些模型很难区分正常用户意图和我们对手的攻击，”陈说。