红杉中国发布xbench，动态评估AI智能体，引领评估新标准-人工智能-ITBear科技资讯

近期，人工智能领域的快速发展，特别是大型模型的日新月异，给传统的AI能力评估方式带来了巨大挑战。为了应对这一挑战，红杉中国在5月26日正式揭晓了其最新研发的AI基准测试工具——xbench。这款工具不仅专注于AI模型的能力评估，更引入了一项创新的动态更新机制，确保评估过程既有效又公正。

xbench的诞生，源于红杉中国在ChatGPT发布后对通用人工智能（AGI）发展的持续关注。随着智能体在多个领域的广泛应用，传统的静态基准测试方法逐渐暴露出局限性，难以准确衡量模型的真实水平。因此，xbench采用了独特的双轨评估体系：一方面，通过构建全面的多维度测评数据集，追踪并评估模型的理论能力上限；另一方面，则注重智能体的实际应用价值，力求实现对AI技术的全面、客观评价。

在评估方法上，xbench采用了长青评估机制，即评估工具会根据技术的快速迭代进行动态更新。这一机制不仅提升了测试的可靠性，还有效避免了题库泄露等问题，确保了评估的公正性和准确性。过去，一些模型因题库泄露而被质疑“刷榜”，而xbench的推出正是为了从根本上解决这一问题。

xbench还引入了垂直领域智能体的评测方法论，特别是在招聘与营销领域的应用。随着AI智能体的不断发展，深度搜索、信息收集和推理分析等能力成为衡量其是否迈向AGI的关键。为此，xbench特别关注具有思维链的多模态模型在生成商用视频方面的表现，以及在动态更新的应用中，GUI智能体的可信度等关键问题。这些评测内容不仅丰富了xbench的评估维度，也为其在垂直领域的应用提供了有力支持。