安全研究人员警告：人工智能代理必须被视为“不受信任的系统”

根据最新修订的研究论文，人工智能驱动的代理的安全性必须构建到整个系统架构中，而不仅仅是关注人工智能模型本身，以有效防止故障和恶意攻击。

该论文由 Google、Grey Swan AI、EmbraceTheRed 和多家学术机构的协作团队于 5 月 20 日发布，断言 AI 代理安全从根本上来说是一个系统问题。研究人员认为，人工智能代理应该被视为任何系统中不可信的组件。

“从这个角度来看，提高模型稳健性的努力（社区的主流观点）本身是不够的。相反，我们必须用系统安全领域的技术来补充现有的努力，”研究人员表示。 “为此，我们建议将代理安全视为计算机安全的一个实例。这个领域长期以来一直与强大的攻击者打交道，并推动了数十年对应对此类对手的原理和技术的研究。”

随着人工智能代理获得巨大的吸引力，特别是在加密货币用户中，对强化安全性的呼声随之而来。一些行业高管预测 Web3 中人工智能代理的采用将出现爆炸性增长。 Circle 首席执行官杰里米·阿莱尔 (Jeremy Allaire) 一月份推测，五年内将有数十亿个人工智能代理代表用户运行。

核心保护可以阻止大多数攻击

在分析了大量攻击案例研究后，研究团队确定了可以“消除大部分攻击”的“三种机制”。

指令与数据分离：人工智能代理必须清楚地区分可执行指令和不可信数据，以防止攻击者在数据流中隐藏恶意命令。
最小权限原则：代理应仅使用任务所需的最低权限进行操作，而不是具有完整的系统访问权限。
敏感数据的外部控制：应该由更广泛的系统（而不是人工智能代理本身）来管理敏感信息的发送位置，防止可能将数据泄露到不安全目的地的操纵。

研究人员强调，标准安全架构是围绕可信区域和不可信区域构建的，而人工智能代理本质上属于后者。 “代理安全是一个系统问题，”他们总结道。

将 AI 代理定位为不受信任组件的概念图。（说明性）

加密和 Web3 的现实世界意义

最近发生的安全事件凸显了该框架的紧迫性。据报道，人工智能驱动的加密货币交易助手 Bankr 在识别出一名攻击者破坏了至少 14 个钱包后，于 5 月 20 日禁用了交易，安全专家怀疑人工智能代理本身遭到了利用。

人工智能代理越来越多地用于构建 Web3 应用程序、启动代币以及与 DeFi 协议自主交互。这种集成带来了新的安全挑战。

区块链情报公司 Merkle Science 的归因负责人 Aaron Ratcliff 指出，为人工智能代理提供钱包访问权限会在去信任设计中引入信任层。 “我想要证据证明人工智能可以在进行交易之前捕获抢先交易、应用滑点限制、发现诈骗代币并实时审核合约。它还应该沙箱提示、防止注入并阻止中间人访问，”他去年告诉 Cointelegraph。

Sahara AI 联合创始人 Sean Ren 呼应了强有力的保障措施的需要，强调了模型上下文协议作为安全“黄金标准”的重要性。不过，他建议用户保持警惕。 “它们本质上充当人工智能模型和你的钱包之间的看门人。代理只能执行特定的、经批准的操作，例如检查余额或准备付款供你确认，而不能自由转移资金或更改钱包设置，”任解释道。

集体发现强调了观点的关键转变：保护人工智能需要超越模型强化，构建本质上限制和监控代理能力的系统，并以合理的怀疑态度对待其行为。