谷歌发布FACTS基准测试：Gemini 3 Pro领跑，AI事实准确性仍有提升空间-业界动态-ITBear科技资讯

谷歌DeepMind近日推出了一项名为FACTS的基准测试，旨在评估人工智能系统在事实准确性方面的表现。这项测试通过四个关键维度对AI模型进行全面考察：能否依靠自身知识正确回答事实性问题、是否具备高效利用网络搜索的能力、在长文本中精准引用信息的水平，以及对图像内容的理解程度。测试结果显示，谷歌自家的Gemini 3 Pro模型以69%的准确率领先，其他主流AI模型的表现则存在明显差距。

尽管AI在生成速度和语言流畅性上展现出显著优势，但事实可靠性仍是其短板。特别是在需要专业领域知识、复杂逻辑推理或严格依赖原始资料的场景中，AI的表现远未达到人类标准。这一缺陷在高风险行业尤为突出，金融、医疗和法律等领域对信息准确性的要求极高，即便是微小的事实错误也可能引发严重后果。

以法律行业为例，某律师事务所近期发生的案例凸显了AI应用的潜在风险。该机构员工使用ChatGPT起草法律文件时，系统生成的文本中包含大量虚构的判例引用。这种严重失误直接导致该员工被解雇，也暴露出当前AI技术在专业场景中的局限性。类似情况并非孤例，如何确保AI生成内容的真实性已成为行业亟待解决的问题。

谷歌方面表示，通过FACTS测试可以精准定位AI模型的错误类型和发生场景，这将为技术改进提供重要依据。不过从现有数据看，AI系统仍有约三分之一的概率会输出错误信息。这意味着在关键决策领域，人类专家的审核和干预仍不可或缺。如何平衡效率与准确性，将成为AI技术落地应用的核心挑战。