AI聊天时间长，可靠性竟大幅跳水？微软研究揭秘-人工智能-ITBear科技资讯

一项由微软与Salesforce携手开展的深入研究发现，先进的人工智能语言模型在长时间对话中出现了显著的可靠性下滑现象。用户在逐步阐述需求的过程中，AI系统的表现平均下降了39%，这一结果对AI助手在现实场景中的应用发出了重要警示。

为了揭示这一性能缺陷，研究团队设计了一种名为“分片”的测试方法，旨在模拟用户在实际对话中逐步明确需求的过程。不同于传统的一次性提供完整信息的方式，这种方法将任务拆解为多个步骤，更贴近用户真实的使用场景。

测试的结果令人惊讶：AI模型的准确率从大约90%骤降至仅有51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o，所有15个参与测试的模型都遭遇了这种急剧的性能下降。

每个实验都包含了90到120条指令，这些指令被细分为来自高质量数据集的较小子任务。即便是研究中的顶级模型，如Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1，在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是，这些模型的一致性大幅降低，同一任务的最佳和最差表现之间的差异甚至可达50个百分点。

研究团队识别出AI模型在多轮对话中的四大核心问题：过早下结论，即在掌握全部必要信息之前就匆忙做出判断；过度依赖历史信息，即使这些信息中存在错误；忽视对话过程中的重要信息；以及过度详述，提供过于详细的回答，导致对信息缺口的错误假设。

为了提高AI模型的可靠性，研究团队尝试了多种技术改进，包括降低模型温度设定以减少随机性，以及让AI重复用户指令。然而，这些优化措施并未产生明显效果。研究还发现，改变每步提供的细节程度同样无法解决问题。唯一可靠的解决方案是在对话开始时就提供所有必要的信息。

大型语言模型在多步骤、未明确指定的对话中经常“迷失”，导致性能显著下降。性能下降呈现出两个层面：模型的基本能力仅下降了约16%，但不可靠性却飙升了112%。在单轮任务中，能力更强的模型通常更可靠，但在多轮对话中，所有模型的可靠性都同样糟糕，与其基线技能水平无关。

基于研究结果，专家提出了两项实用的建议。对于用户而言，当对话偏离主题时，与其试图修正，不如重新开始新的对话。在对话结束时，要求AI总结所有需求，并以此作为新对话的起点。对于开发者而言，应更加重视多轮对话的可靠性开发，未来的模型需要在指令不完整的情况下保持稳定的表现，而非依赖特殊的提示技巧或参数调整。

这项研究揭示了AI助手在现实应用中面临的重大挑战。由于用户通常通过渐进式的对话来表达需求，可靠性问题可能会严重影响用户体验和AI系统的实际价值。研究人员强调，可靠性与原始性能同样重要，特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。