ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI智慧背后的隐忧:越聪明,越爱“编造”真相?

时间:2024-09-29 14:00:27来源:ITBEAR编辑:快讯团队
**大型语言模型越强大越爱“撒谎”?新研究揭示AI准确性困境**

随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明,尽管AI变得更加“聪明”,但其可靠性却在实际应用中受到了质疑。

该研究由多个知名研究机构联合进行,成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析,包括OpenAI的GPT系列、meta的LLaMA,以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后,研究人员发现,尽管新一代LLM在某些情况下的确给出了更准确的回答,但从整体来看,它们提供错误答案的频率却比旧模型更高。

瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出:“现在的LLM几乎能回答任何问题,这既是进步也是隐患。虽然正确回答的数量增加了,但错误回答的数量也同样在上升。”

在测试中,这些LLM被要求处理从数学到地理等多个领域的问题,并执行一些特定的信息排序任务。结果显示,规模更大、能力更强的模型在简单问题上表现最佳,但在面对更复杂的问题时,其准确率却显著下降。

值得注意的是,OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”,但这一趋势并非孤例,其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中,即便是最简单的问题,也没有任何一个模型能够达到60%的准确率。

当被要求评估聊天机器人答案的准确性时,参与测试的人类受试者也表现出了相当程度的不确定性,他们在10%到40%的情况下做出了错误的判断。

这项研究揭示了一个重要的问题:随着AI模型的规模和能力的不断提升,如何确保它们提供的答案是准确且可靠的?研究人员建议,一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默,而不是盲目地给出答案。Hernández-Orallo表示:“我们可以设定一个阈值,让聊天机器人在遇到具有挑战性的问题时能够说‘不,我不知道’。”然而,这种做法也可能会暴露当前技术的局限性,从而影响用户对AI的信任和接受度。

更多热门内容
Duolingo“AI-first”战略遇阻,用户不满引发删App潮,信任危机何解?
据报道,语言学习平台Duolingo因转向“AI-first”战略,宣布用人工智能取代部分人工,引发大量用户不满,出现删App、取消订阅潮。CEOLuis von Ahn试图通过清空社交媒体内容、发布神秘视…

2025-06-02

软银英特尔联手打造AI内存芯片,电力消耗或降一半引领数据中心变革
6月2日,据报道,软银集团与英特尔公司合作,通过新成立的Saimemory公司共同开发AI专用内存芯片。该芯片采用新型堆叠式DRAM设计,有望将电力消耗减半,降低AI数据中心运营成本。项目基于英特尔技术和日本…

2025-06-02

商汤集团高层调整:徐冰转岗AI芯片业务,杨帆、王征拟接任执行董事
日前,商汤集团发布公告称,联合创始人徐冰将于2025年6月26日股东周年大会结束后卸任执行董事及董事会秘书职务,转任AI芯片业务负责人,专注推动公司战略性新兴业务发展。同时,商汤提议联合创始人、大装置事业群总…

2025-06-02