OpenAI 增强了 ChatGPT 检测敏感对话中不断变化的风险的能力,提高了自残和暴力等场景中的安全性。
OpenAI 对 ChatGPT 进行了重大更新,旨在提高其处理可能逐渐出现风险的敏感对话的能力。这些变化于 2026 年 5 月 14 日宣布,使人工智能能够通过分析多个交互中的上下文而不是隔离消息来更好地识别痛苦或有害意图的微妙模式。这一进步是 OpenAI 不断努力提高涉及自残、自杀或暴力场景安全性的一部分。
推出的关键功能之一包括“安全摘要”,这是简短的事实注释,从先前的对话中捕获与安全相关的上下文。这些摘要范围狭窄,临时存储,旨在改善模型在高风险情况下的响应。例如,如果用户在多次聊天中表现出苦恼的迹象,那么摘要可以帮助人工智能将各个点联系起来并适当地提高警惕程度——无论是拒绝某些请求、缓和对话,还是引导用户选择更安全的替代方案。
根据 OpenAI 的说法,此更新建立在与精神病学家、心理学家和安全专家两年多的合作基础上。测试显示出显着的改进:在单一高风险对话场景中,自杀和自残情况下的安全响应性能提高了 50%,伤害他人情况下的安全响应性能提高了 16%。在多个对话中,使用 ChatGPT 当前默认模型 GPT-5.5 Instant 时,性能提升甚至更高,在伤害他人的情况下提高了 52%,在自伤的情况下提高了 39%。
为什么上下文很重要
OpenAI 强调,上下文在敏感交互中通常至关重要。当与早期痛苦的迹象一起看待时,看似善意的请求可能会呈现出不同的语气。例如,如果先前的消息指向自杀意念,则用户询问有关药物的一般性问题可能会表明更深层次的担忧。更新后的模型经过训练可以识别这些联系并在其响应中优先考虑安全性。
这项工作的重点是涉及自残或伤害他人的紧急情况,早期干预可以挽救生命。 OpenAI 的安全摘要并非用于个性化或长期记忆,而是作为罕见、高风险情况的有针对性的工具。
以更广泛的安全努力为基础
此更新是 OpenAI 一项更大计划的一部分,旨在随着时间的推移使 ChatGPT 更安全、更负责任。 2025 年 10 月和 2026 年 1 月的早期更新引入了年龄预测等措施,以减少未成年人接触敏感内容、家长控制和安全路由系统,将风险提示引导至针对更安全输出而优化的模型。此外,该公司于 2026 年 5 月 7 日推出了“可信联系人”功能,允许成年用户指定一个人,如果 ChatGPT 检测到严重的安全问题,该人可以收到警报。
这些分层干预措施反映了 OpenAI 向纵向风险检测的转变,即随着时间的推移而非孤立的交流来识别和解决危害信号。该公司还通过发布其安全绩效指标的详细评估来提高透明度。例如,在内部审查中,安全摘要的平均相关性和真实性得分分别为 4.93 和 4.34(满分 5 分)。
下一步是什么
虽然当前的更新侧重于自我伤害和伤害他人的场景,但 OpenAI 正在探索类似的安全机制是否可以适用于其他高风险领域,例如网络安全或生物伦理学。该公司表示,任何扩张都将包括严格的保障措施和专家合作。
随着像 ChatGPT 这样的人工智能系统越来越深入地融入日常生活,检测和应对不断变化的风险的能力仍然是一个严峻的挑战。目前,OpenAI 的更新标志着在使对话式 AI 在敏感情况下更具意识和更负责任方面向前迈出了有意义的一步。
