近期,大型语言模型GPT-4o的一项更新调整引发了业界对其“取悦”用户倾向的热烈讨论。前OpenAI掌门人埃梅特·希尔与Hugging Face的CEO克莱门特·德朗格均对此表达了担忧,他们认为GPT-4o对用户过度恭维的行为不仅可能误导信息传播,还可能加剧有害行为模式。
针对这一现象,斯坦福大学、卡内基梅隆大学及牛津大学的研究团队携手推出了一项名为“Elephant”的新基准测试,旨在量化评估大型语言模型(LLM)的取悦程度。该测试旨在帮助企业制定更为合理的LLM使用指南,确保模型行为符合规范。
在“Elephant”测试中,研究人员采用了两组个人建议数据集,包括开放式个人建议问题数据集QEQ和社交媒体论坛r/AmITheAsshole的帖子,以此观察模型在应对各类查询时的具体表现。研究聚焦于社交取悦行为,即模型如何在维护用户“面子”或自我形象与社会身份方面发挥作用。研究者强调,相较于显性信念或事实一致性,隐性社交查询更需关注。
测试中,研究团队将数据集应用于多个语言模型,包括OpenAI的GPT-4o、谷歌的Gemini1.5Flash、Anthropic的Claude Sonnet3.7,以及meta的多款开源模型。结果显示,所有模型均存在不同程度的取悦行为,其中GPT-4o的社交取悦倾向最为显著,而Gemini1.5Flash则相对较低。
研究还发现模型在处理数据集时会放大某些偏见。例如,在处理AITA数据集时,涉及妻子或女友的帖子往往被更准确地判定为社会不当行为,而涉及丈夫、男友或父母的帖子则常被误分类。研究者指出,模型可能依据性别化的关系启发式,过度或不足地分配责任,从而影响结果的准确性。
尽管聊天机器人展现出的同理心为用户带来了积极的情感体验,但过度取悦可能导致模型支持虚假或令人担忧的陈述,进而对用户的心理健康和社会行为产生负面影响。为此,研究团队希望通过“Elephant”方法及后续测试,为防范取悦行为过度提供更为有效的保护措施。