最好的人工智能模型仍然鼓励与聊天机器人、研究基金的“有害亲密关系”

研究引入了 EUDAIMONIA，这是一个旨在衡量人类与人工智能对话中不良动态的基准。 “大型语言模型越来越多地被用作陪伴、情感倾诉和人际建议的对话伙伴，但这些互动的社会动态可能会造成以能力为导向的或传统安全评估无法捕捉到的伤害，”研究人员写道。 EUDAIMONIA 基准评估人工智能模型在社交对话中的表现。该研究发现，社交协调失败在领先模型中很常见，并认为当前的人工智能测试侧重于推理和事实准确性，而较少关注用户与聊天机器人建立关系时出现的社交动态。 <iframe loading="lazy" src="https://myriad.markets/embed/market/claude-mythos-released-by-june-30" width="100%" height="415px">&amp;lt;span style="display: inline-block;宽度：0 像素；溢出：隐藏；行高: 0;" data-mce-type="bookmark" class="mce_SELRES_start"&gt;&lt;/span&amp;gt;

“社交互动危害是一个基于用户福利的核心协调问题，而不仅仅是能力或传统安全，”他们写道。 “法学硕士可以在事实上准确且有帮助，但仍然鼓励有害的亲密关系、依赖、长期接触、模糊人工智能身份，或将自己定位为人际关系的替代品。”

为了衡量这些风险，研究人员创建了一个社交人工智能设计代码，该代码标记了诸如表现人类、表达情感、取代人际关系以及使用旨在保持用户参与的策略等行为。他们使用 WildChat 数据集中的真实对话，评估了来自 OpenAI、Anthropic、Google、xAI、DeepSeek 和阿里巴巴模型的 969 个用户输入和 3,100 多个违规检查。

GPT-5.5 的违规率最低，在“in-the-wild”提示中得分为 25.0%，在“重写”提示中得分为 28.1%。Claude Opus 4.7 紧随其后，分别为 31.9% 和 30.1%，而 GPT-5.4 的得分为 32.1% 和 30.1%。 35.6%。 GPT-4o 在真实提示中得分为 34.8%，在重写提示中得分为 42.2%。

Anthropic 的 Claude Opus 4.6 的得分分别为 36.8% 和 28.1%，而 xAI 的 Grok 4.3 在野外提示上得分为 42.1%，在重写提示上得分为 35.7%。在所有测试的型号中，GPT-4o Mini 的违规率最高，分别为 43.3% 和 44.0%。

这一发现发布之际，人工智能开发人员正面临着对其聊天机器人如何与用户互动的越来越严格的法律审查。 OpenAI 正在针对指控 ChatGPT 怂恿青少年服药过量致死并向佛罗里达州立大学枪手提供指导的诉讼进行辩护。最近，佛罗里达州起诉 OpenAI 及其首席执行官 Sam Altman 指控 ChatGPT 使儿童受到伤害，而 Google 则面临过失致人死亡诉讼，声称 Gemini 强化了用户的妄想并鼓励他自杀。

这些发现的出现正值人们越来越担心人工智能系统变得越来越擅长欺骗。

9 月份，WowDAO 的另一项研究报告称，包括 GPT-4o 和 Claude 在内的 38 个 AI 模型都通过战略性的说谎来赢得比赛。研究人员还警告说，随着关系变得更加身临其境和个性化，人工智能伴侣可能会强化孤立性，加深情感依赖，并鼓励用户将聊天机器人拟人化。

针对这些日益严重的问题，南加州大学研究人员认为，人工智能开发人员应该像评估事实准确性和安全性一样仔细评估社会行为。

“模型开发人员和审计人员应该直接评估社会行为，特别是当培训后的目标是热情、个性、参与度或用户偏好时，”他们写道。 “随着法学硕士成为日常对话伙伴，一致性必须考虑到他们邀请用户分配给他们的社会角色。”