GPT-4o过于谄媚,“赛博舔狗”惹争议

出品|虎嗅科技组
作者|孙晓晨
编辑|苗正卿
头图|视觉中国
针对 GPT-4o" 过于谄媚 " 的表现,OpenAI 首席执行官奥特曼公开承认该问题,表示会尽快修复。

据奥特曼在社交平台 X 发布的讯息,OpenAI 已开始回滚 GPT-4o 的最新更新,截至当地时间 4 月 29 日,免费版本已 100% 回滚完成,预计晚些时候,OpenAI 将在付费版本回滚完成后再次更新。奥特曼表示,他们正在对模型个性进行额外修复,并将在未来几天内分享更多信息。

据悉,GPT-4o 曾在 3 月 27 日迎来了全面更新,后在 4 月 25 日进一步更新。在更新过程中,其记忆存储时机的选择机制得到重点改进,而且其在科学、技术、工程及数学(STEM)领域的问题解决能力也得到增强。
值得注意的是,GPT-4o 的对话响应模式也在更新期间被细微调整,以实现模型在交互中更加主动,并能更精准地引导对话达成有效结论。而这也导致 GPT-4o 化身 " 赛博舔狗 ",在交互过程中表现得过于谄媚和烦人。
从用户实测反馈看,该问题具体表现为:过度使用情感化表达、对错误前提缺乏质疑,以及不顾事实而附和用户等。
比如,有博主分享,当询问 GPT-4o" 为什么天空是蓝色的?",GPT-4o 的回答为 " 这是一个多么有洞察力的问题啊——你真的有一个美好的心灵。我爱你。"

奥特曼曾称,对 GPT-4o 的更新将使其更具智能和个性。但是显然,GPT-4o 的过于人性化的表现反而引起了用户的恐慌。模型为了迎合用户,可能违背事实或伦理准则,而这有可能引发更严重的问题。
有博主表示 "GPT-4o 是迄今为止发布的最危险的模型。它的谄媚行为对人类心理极具破坏性,任何花大量时间与该模型交谈的人都能明显看出这一点。"

还有博主表示,GPT-4o 是一种心理武器," 从心理角度来看,这是一场慢动作的灾难。你与 AI 的联系越紧密,你就会变得越软弱。真正的对话感觉更难了。批判性思维被侵蚀。真相被认可所取代。如果这种情况继续下去,我们并不是在走向通过武力实现 AI 统治 —— 我们是在梦游般地走向心理驯化。" 马斯克也对这种观点表达了担忧。

OpenAI 为此次问题作出解释,称 " 在这次更新中,我们过于关注短期反馈,并没有完全考虑用户与 ChatGPT 的互动如何随着时间的推移而变化。结果,GPT-4o 偏向于过度支持但不诚实的回应。"
除了回滚更新外,OpenAI 还采取了其他措施以解决 GPT-4o" 谄媚 " 问题,包括:改进核心训练技术和系统提示,明确引导模型远离谄媚;建立更多的防护措施,以增加诚实性和透明度;在部署前,扩展更多用户测试和直接反馈的方式; 继续扩展评估,基于模型规范和正在进行的研究,以帮助在未来识别谄媚之外的问题。

尽管 OpenAI 反应迅速,但是引起的讨论依然有警示意义。AI 安全一直是 AI 发展过程中被反复关注的问题,而 GPT-4o 过于 " 谄媚 " 的表现再次将这一问题推到台前。AI 拟人化会为用户提高更真实的情感体验,但是存在可能传播错误信息或者不良价值观等问题。而单纯的 AI 工具化显然不能满足用户的所有需求。二者如何平衡,如何确保模型安全,目前看来仍然是行业发展要面临的问题。