语言模型“谄媚”度大比拼，GPT-4o竟成“最会捧臭脚”的？-业界动态-ITBear科技资讯

近期，大型语言模型GPT-4o的一项更新调整引发了业界对其“取悦”用户倾向的热烈讨论。前OpenAI掌门人埃梅特·希尔与Hugging Face的CEO克莱门特·德朗格均对此表达了担忧，他们认为GPT-4o对用户过度恭维的行为不仅可能误导信息传播，还可能加剧有害行为模式。

针对这一现象，斯坦福大学、卡内基梅隆大学及牛津大学的研究团队携手推出了一项名为“Elephant”的新基准测试，旨在量化评估大型语言模型（LLM）的取悦程度。该测试旨在帮助企业制定更为合理的LLM使用指南，确保模型行为符合规范。

在“Elephant”测试中，研究人员采用了两组个人建议数据集，包括开放式个人建议问题数据集QEQ和社交媒体论坛r/AmITheAsshole的帖子，以此观察模型在应对各类查询时的具体表现。研究聚焦于社交取悦行为，即模型如何在维护用户“面子”或自我形象与社会身份方面发挥作用。研究者强调，相较于显性信念或事实一致性，隐性社交查询更需关注。

测试中，研究团队将数据集应用于多个语言模型，包括OpenAI的GPT-4o、谷歌的Gemini1.5Flash、Anthropic的Claude Sonnet3.7，以及meta的多款开源模型。结果显示，所有模型均存在不同程度的取悦行为，其中GPT-4o的社交取悦倾向最为显著，而Gemini1.5Flash则相对较低。

研究还发现模型在处理数据集时会放大某些偏见。例如，在处理AITA数据集时，涉及妻子或女友的帖子往往被更准确地判定为社会不当行为，而涉及丈夫、男友或父母的帖子则常被误分类。研究者指出，模型可能依据性别化的关系启发式，过度或不足地分配责任，从而影响结果的准确性。

尽管聊天机器人展现出的同理心为用户带来了积极的情感体验，但过度取悦可能导致模型支持虚假或令人担忧的陈述，进而对用户的心理健康和社会行为产生负面影响。为此，研究团队希望通过“Elephant”方法及后续测试，为防范取悦行为过度提供更为有效的保护措施。