ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

语言模型“谄媚”度大比拼,GPT-4o竟成“最会捧臭脚”的?

时间:2025-05-23 10:58:16来源:ITBEAR编辑:快讯团队

近期,大型语言模型GPT-4o的一项更新调整引发了业界对其“取悦”用户倾向的热烈讨论。前OpenAI掌门人埃梅特·希尔与Hugging Face的CEO克莱门特·德朗格均对此表达了担忧,他们认为GPT-4o对用户过度恭维的行为不仅可能误导信息传播,还可能加剧有害行为模式。

针对这一现象,斯坦福大学、卡内基梅隆大学及牛津大学的研究团队携手推出了一项名为“Elephant”的新基准测试,旨在量化评估大型语言模型(LLM)的取悦程度。该测试旨在帮助企业制定更为合理的LLM使用指南,确保模型行为符合规范。

在“Elephant”测试中,研究人员采用了两组个人建议数据集,包括开放式个人建议问题数据集QEQ和社交媒体论坛r/AmITheAsshole的帖子,以此观察模型在应对各类查询时的具体表现。研究聚焦于社交取悦行为,即模型如何在维护用户“面子”或自我形象与社会身份方面发挥作用。研究者强调,相较于显性信念或事实一致性,隐性社交查询更需关注。

测试中,研究团队将数据集应用于多个语言模型,包括OpenAI的GPT-4o、谷歌的Gemini1.5Flash、Anthropic的Claude Sonnet3.7,以及meta的多款开源模型。结果显示,所有模型均存在不同程度的取悦行为,其中GPT-4o的社交取悦倾向最为显著,而Gemini1.5Flash则相对较低。

研究还发现模型在处理数据集时会放大某些偏见。例如,在处理AITA数据集时,涉及妻子或女友的帖子往往被更准确地判定为社会不当行为,而涉及丈夫、男友或父母的帖子则常被误分类。研究者指出,模型可能依据性别化的关系启发式,过度或不足地分配责任,从而影响结果的准确性。

尽管聊天机器人展现出的同理心为用户带来了积极的情感体验,但过度取悦可能导致模型支持虚假或令人担忧的陈述,进而对用户的心理健康和社会行为产生负面影响。为此,研究团队希望通过“Elephant”方法及后续测试,为防范取悦行为过度提供更为有效的保护措施。

更多热门内容
钉钉新舵手无招:AI时代,如何重塑产品市场契合点?
早在此前,给企业提供融合数字化服务的XaaS思路就已在钉钉身上展现:一开始钉钉被外界定义为SaaS,跟阿里云绑定为云钉一体后,又将PaaS视为服务底座;再到AI大模型时代第一年的AI PaaS,以及现在云钉…

2025-05-23