ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI聊天时间长,可靠性竟大幅跳水?微软研究揭秘

时间:2025-05-29 10:11:37来源:ITBEAR编辑:快讯团队

一项由微软与Salesforce携手开展的深入研究发现,先进的人工智能语言模型在长时间对话中出现了显著的可靠性下滑现象。用户在逐步阐述需求的过程中,AI系统的表现平均下降了39%,这一结果对AI助手在现实场景中的应用发出了重要警示。

为了揭示这一性能缺陷,研究团队设计了一种名为“分片”的测试方法,旨在模拟用户在实际对话中逐步明确需求的过程。不同于传统的一次性提供完整信息的方式,这种方法将任务拆解为多个步骤,更贴近用户真实的使用场景。

测试的结果令人惊讶:AI模型的准确率从大约90%骤降至仅有51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o,所有15个参与测试的模型都遭遇了这种急剧的性能下降。

每个实验都包含了90到120条指令,这些指令被细分为来自高质量数据集的较小子任务。即便是研究中的顶级模型,如Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1,在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是,这些模型的一致性大幅降低,同一任务的最佳和最差表现之间的差异甚至可达50个百分点。

研究团队识别出AI模型在多轮对话中的四大核心问题:过早下结论,即在掌握全部必要信息之前就匆忙做出判断;过度依赖历史信息,即使这些信息中存在错误;忽视对话过程中的重要信息;以及过度详述,提供过于详细的回答,导致对信息缺口的错误假设。

为了提高AI模型的可靠性,研究团队尝试了多种技术改进,包括降低模型温度设定以减少随机性,以及让AI重复用户指令。然而,这些优化措施并未产生明显效果。研究还发现,改变每步提供的细节程度同样无法解决问题。唯一可靠的解决方案是在对话开始时就提供所有必要的信息。

大型语言模型在多步骤、未明确指定的对话中经常“迷失”,导致性能显著下降。性能下降呈现出两个层面:模型的基本能力仅下降了约16%,但不可靠性却飙升了112%。在单轮任务中,能力更强的模型通常更可靠,但在多轮对话中,所有模型的可靠性都同样糟糕,与其基线技能水平无关。

基于研究结果,专家提出了两项实用的建议。对于用户而言,当对话偏离主题时,与其试图修正,不如重新开始新的对话。在对话结束时,要求AI总结所有需求,并以此作为新对话的起点。对于开发者而言,应更加重视多轮对话的可靠性开发,未来的模型需要在指令不完整的情况下保持稳定的表现,而非依赖特殊的提示技巧或参数调整。

这项研究揭示了AI助手在现实应用中面临的重大挑战。由于用户通常通过渐进式的对话来表达需求,可靠性问题可能会严重影响用户体验和AI系统的实际价值。研究人员强调,可靠性与原始性能同样重要,特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。

更多热门内容
Meta AI月活破10亿,扎克伯格:将深化个性化与语音对话体验
Meta首席执行官马克·扎克伯格周三在年度股东大会上表示,该公司的人工智能助手MetaAI目前在公司的应用系列中拥有10亿月度活跃用户。扎克伯格说:“今年的重点是深化体验,使Meta AI成为领先的个人AI…

2025-05-29

马斯克xAI豪掷3亿,与Telegram携手部署Grok AI机器人
Telegram公司CEO帕维尔-杜罗夫(Pavel Durov)周三发文宣布,马斯克创立的xAI公司向这家总部位于迪拜的通讯平台支付3亿美元,以部署其Grok人工智能聊天机器人。杜罗夫表示,双方达成为期一年…

2025-05-29

英伟达一季度财报亮眼:营收441亿美元超预期,数据中心收入大增73%
英伟达发布第一财季财报。财报显示,该季度英伟达营收441亿美元,同比增长69%,市场预期432.9亿美元;数据中心收入391亿美,同比增长73%,预估为392.2亿美元。净利润187.8亿美元,同比增长26%…

2025-05-29

DeepSeek新版R1亮相,性能直逼OpenAI顶尖o3模型?
开源大模型平台DeepSeek开源了R1最新0528版本。DeepSeek目前没有对该版本进行任何说明,又只是“悄悄”地开放了模型。估计很快会放出模型卡介绍更多功能。但已经有网友迫不及待的对新版R1进行测试,…

2025-05-29