根据最新修订的研究论文,人工智能驱动的代理的安全性必须构建到整个系统架构中,而不仅仅是关注人工智能模型本身,以有效防止故障和恶意攻击。
该论文由 Google、Grey Swan AI、EmbraceTheRed 和多家学术机构的协作团队于 5 月 20 日发布,断言 AI 代理安全从根本上来说是一个系统问题。研究人员认为,人工智能代理应该被视为任何系统中不可信的组件。
“从这个角度来看,提高模型稳健性的努力(社区的主流观点)本身是不够的。相反,我们必须用系统安全领域的技术来补充现有的努力,”研究人员表示。 “为此,我们建议将代理安全视为计算机安全的一个实例。这个领域长期以来一直与强大的攻击者打交道,并推动了数十年对应对此类对手的原理和技术的研究。”
随着人工智能代理获得巨大的吸引力,特别是在加密货币用户中,对强化安全性的呼声随之而来。一些行业高管预测 Web3 中人工智能代理的采用将出现爆炸性增长。 Circle 首席执行官杰里米·阿莱尔 (Jeremy Allaire) 一月份推测,五年内将有数十亿个人工智能代理代表用户运行。
核心保护可以阻止大多数攻击
在分析了大量攻击案例研究后,研究团队确定了可以“消除大部分攻击”的“三种机制”。
- 指令与数据分离:人工智能代理必须清楚地区分可执行指令和不可信数据,以防止攻击者在数据流中隐藏恶意命令。
- 最小权限原则:代理应仅使用任务所需的最低权限进行操作,而不是具有完整的系统访问权限。
- 敏感数据的外部控制:应该由更广泛的系统(而不是人工智能代理本身)来管理敏感信息的发送位置,防止可能将数据泄露到不安全目的地的操纵。
研究人员强调,标准安全架构是围绕可信区域和不可信区域构建的,而人工智能代理本质上属于后者。 “代理安全是一个系统问题,”他们总结道。
将 AI 代理定位为不受信任组件的概念图。 (说明性)
加密和 Web3 的现实世界意义
最近发生的安全事件凸显了该框架的紧迫性。据报道,人工智能驱动的加密货币交易助手 Bankr 在识别出一名攻击者破坏了至少 14 个钱包后,于 5 月 20 日禁用了交易,安全专家怀疑人工智能代理本身遭到了利用。
人工智能代理越来越多地用于构建 Web3 应用程序、启动代币以及与 DeFi 协议自主交互。这种集成带来了新的安全挑战。
区块链情报公司 Merkle Science 的归因负责人 Aaron Ratcliff 指出,为人工智能代理提供钱包访问权限会在去信任设计中引入信任层。 “我想要证据证明人工智能可以在进行交易之前捕获抢先交易、应用滑点限制、发现诈骗代币并实时审核合约。它还应该沙箱提示、防止注入并阻止中间人访问,”他去年告诉 Cointelegraph。Sahara AI 联合创始人 Sean Ren 呼应了强有力的保障措施的需要,强调了模型上下文协议作为安全“黄金标准”的重要性。不过,他建议用户保持警惕。 “它们本质上充当人工智能模型和你的钱包之间的看门人。代理只能执行特定的、经批准的操作,例如检查余额或准备付款供你确认,而不能自由转移资金或更改钱包设置,”任解释道。
集体发现强调了观点的关键转变:保护人工智能需要超越模型强化,构建本质上限制和监控代理能力的系统,并以合理的怀疑态度对待其行为。
