AI智慧背后的隐忧：越聪明，越爱“编造”真相？-人工智能-ITBear科技资讯

**大型语言模型越强大越爱“撒谎”？新研究揭示AI准确性困境**

随着大型语言模型（LLM）能力的不断增强，一项新研究却发现了令人担忧的趋势：这些智能聊天机器人在回答问题时，似乎越来越倾向于编造答案，而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明，尽管AI变得更加“聪明”，但其可靠性却在实际应用中受到了质疑。

该研究由多个知名研究机构联合进行，成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析，包括OpenAI的GPT系列、meta的LLaMA，以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后，研究人员发现，尽管新一代LLM在某些情况下的确给出了更准确的回答，但从整体来看，它们提供错误答案的频率却比旧模型更高。

瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出：“现在的LLM几乎能回答任何问题，这既是进步也是隐患。虽然正确回答的数量增加了，但错误回答的数量也同样在上升。”

在测试中，这些LLM被要求处理从数学到地理等多个领域的问题，并执行一些特定的信息排序任务。结果显示，规模更大、能力更强的模型在简单问题上表现最佳，但在面对更复杂的问题时，其准确率却显著下降。

值得注意的是，OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”，但这一趋势并非孤例，其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中，即便是最简单的问题，也没有任何一个模型能够达到60%的准确率。

当被要求评估聊天机器人答案的准确性时，参与测试的人类受试者也表现出了相当程度的不确定性，他们在10%到40%的情况下做出了错误的判断。

这项研究揭示了一个重要的问题：随着AI模型的规模和能力的不断提升，如何确保它们提供的答案是准确且可靠的？研究人员建议，一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默，而不是盲目地给出答案。Hernández-Orallo表示：“我们可以设定一个阈值，让聊天机器人在遇到具有挑战性的问题时能够说‘不，我不知道’。”然而，这种做法也可能会暴露当前技术的局限性，从而影响用户对AI的信任和接受度。

渤海亿吨级油田垦利10-2，海上平台建造圆满收官！
2025-06-02

Duolingo“AI-first”战略遇阻，用户不满引发删App潮，信任危机何解？

据报道，语言学习平台Duolingo因转向“AI-first”战略，宣布用人工智能取代部分人工，引发大量用户不满，出现删App、取消订阅潮。CEOLuis von Ahn试图通过清空社交媒体内容、发布神秘视…

2025-06-02

软银英特尔联手打造AI内存芯片，电力消耗或降一半引领数据中心变革

6月2日，据报道，软银集团与英特尔公司合作，通过新成立的Saimemory公司共同开发AI专用内存芯片。该芯片采用新型堆叠式DRAM设计，有望将电力消耗减半，降低AI数据中心运营成本。项目基于英特尔技术和日本…

2025-06-02

vivo如何破局：市场阵地、内卷挑战与新赛道突围的三重考验

2025-06-02

商汤集团高层调整：徐冰转岗AI芯片业务，杨帆、王征拟接任执行董事

日前，商汤集团发布公告称，联合创始人徐冰将于2025年6月26日股东周年大会结束后卸任执行董事及董事会秘书职务，转任AI芯片业务负责人，专注推动公司战略性新兴业务发展。同时，商汤提议联合创始人、大装置事业群总…

2025-06-02

美律师法庭文件引用ChatGPT虚构案例，遭制裁并赔偿
2025-06-02

敦煌文物数字重聚，“数字藏经洞”平台正式发布
2025-06-02