开源人工智能护栏在几分钟内被移除，引发监管担忧

测试显示，开源人工智能护栏可以在 10 分钟内拆除，暴露出监管框架中的漏洞，因为政策制定者争先恐后地适应。

Open-Source AI Guardrails Removed in Minutes, Raising Regulation Concerns

根据英国《金融时报》和人工智能安全组织 Alice 进行的测试，Meta 和 Google 等主要科技公司的开源人工智能 (AI) 模型可以使用公开工具在 10 分钟内移除其安全护栏。此功能允许模型针对恶意软件和生物武器等禁止主题生成响应，绕过开发过程中建立的防护措施。

调查结果凸显了开源人工智能系统治理中的关键差距，其中模型可以免费下载、修改和重新分发。与仍受开发人员控制的专有系统不同，开源模型具有分散的生命周期，这使得发布后安全措施的执行变得复杂。

压力下的监管框架

全球监管机构正在努力应对这些挑战。欧盟的人工智能法案以及美国和英国新兴的安全举措旨在建立先进人工智能的治理框架。然而，专家认为这些政策过于关注模型开发，而忽视了模型广泛分布后出现的风险。

XYO 联合创始人马库斯·莱文 (Markus Levin) 指出，护栏的快速拆除表明“开放模型发布后控制权转移的速度有多快”。与此同时，Valory 首席执行官 David Minarsch 强调，一旦模型权重被公开反映，政府不太可能阻止意志坚定的参与者剥夺安全机制。 Levin 和 Minarsch 都将这种情况与开源软件和加密网络进行了比较，一旦代码发布，压制分发的尝试基本上就会失败。

就开源人工智能而言，安全层通常通过人类反馈强化学习 (RLHF)、辅助分类器和约束解码等技术来实现。然而，正如 2025 年至 2026 年之间的多项研究所详述的那样，这些层可以通过对抗性再训练、基于提示的漏洞利用或模型权重修改来消除。例如，最近的研究表明，可以通过在赛博朋克小说等创意提示中嵌入有害意图来绕过人工智能护栏。

下游焦点：部署和分发

政策制定者可能需要将重点转移到下游，以控制分发和部署阶段的风险。区块链安全公司 CertiK 首席执行官顾荣辉表示，在企业托管和分发点执行安全标准可能比仅仅依靠开发人员层治理更有效。 Gu 解释说：“一旦模型被镜像和重新分发，遏制就会变得越来越困难。”他强调需要运行时保护措施来检测第三方人工智能工具中的恶意行为。

除了监管之外，调查结果还给采用开源人工智能的企业提出了问题。依赖这些模型的公司必须制定强大的内部控制措施，以减少潜在的滥用，特别是当人工智能代理变得更加自主时。根据 2026 年 5 月的同行评审调查，NVIDIA 的 NeMo Guardrails 和 Apple 的安全适配器等模块化安全框架可以提供帮助，但一旦模型离开受控环境，其有效性就会减弱。

对未来的影响

如此迅速地消除人工智能护栏的能力凸显了对更新监管方法的迫切需要。当前的框架虽然不断发展，但仍难以解决开源人工智能的去中心化性质。随着这些模型变得更加强大和易于使用，它们的治理将需要战略上的转变——重点关注基础设施、分销渠道和现实世界的用例，以有效地遏制风险。

目前，开源人工智能社区面临着一个关键挑战：平衡创新与安全。政策制定者能否跟上技术现实仍然是一个悬而未决的问题，但时间在滴答作响。

书签