ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

上海财大团队打造AI统计推理评测体系 填补智能评估关键空白

时间:2025-11-15 01:28:45来源:互联网编辑:快讯

上海财经大学研究团队近日发布了一项突破性成果——全球首个专门评估人工智能统计推理能力的评测体系Stateval,相关论文已上传至arXiv预印本平台。该体系通过近两万道精心设计的题目,构建起覆盖从本科基础到博士研究级别的完整评测框架,为人工智能在数据科学领域的应用能力提供了全新评估维度。

当前主流评测系统存在显著偏科现象。以MMLU为代表的综合性评测中,统计相关题目占比不足3%,且多为简单概率计算;MATH评测系统虽涉及数学推理,但对统计推断的考察仅限于基础层面。这种评估方式如同用语文数学成绩评判学生综合能力,完全忽视了统计学在预测分析、因果推断等领域的核心作用。研究团队通过系统分析发现,现有模型在真实统计场景中的表现远未达到实用水平。

Stateval评测体系采用双层结构设计:基础知识库包含13,817道题目,涵盖45本经典教材、上千道考研真题及名校公开课习题;研究级题库则从2020-2025年18种顶级期刊的2719篇论文中提取2374道证明题。问题分类体系沿难度和学科两个维度展开,既区分本科与研究生层次,又细分为概率论、统计学、机器学习三大领域及其30余个子方向。对于研究级问题,更进一步按理论性质分为渐近分析、分布特性、最优性等12个专业类别。

为解决大规模高质量题库建设难题,研究团队开发了多智能体协作系统。该系统由四个核心模块构成:文档转换模块通过多模态大模型处理PDF、扫描件等异构文档;内容提取模块运用动态规则识别定理、引理等关键信息;问题生成模块将理论内容转化为标准化问答;质量控制模块进行最终校验。特别引入的人工反馈机制,通过专家评估持续优化生成算法,确保问题学术严谨性。这种人机协同模式使题库建设效率提升数十倍,同时保持了专业水准。

评测采用分层评分机制:选择题实行严格二元评分,开放题则通过四步评估流程,从推理准确性、步骤完整性、结果正确性三个维度综合打分,权重分配为4:3:3。研究级证明题采用双轨制标准:对表达式类答案重点考察主导项阶次一致性,对常数类答案要求绝对精确。为确保结果可靠性,每道题均进行三轮独立评估并取最低分。这种设计既保证了评分客观性,又能反映模型的真实推理能力。

基准测试显示,当前顶尖模型在统计推理方面存在明显短板。在精简版评测集(3300题)中,GPT-5在基础知识部分取得82.85分,但研究生层次题目正确率下降12个百分点。研究级问题测试结果更令人警醒:GPT-5-mini准确率仅57.62%,开源模型最高得分51.10%。细分领域分析表明,模型在机器学习相关问题上表现优于传统统计理论,在最优性推导、泛化误差等复杂推理任务中准确率不足50%。这种能力分布不均现象,反映出训练数据偏向热门应用领域而忽视基础理论的问题。

该成果对人工智能发展具有多重启示。在应用层面,揭示了当前模型在科研分析中的可靠性边界,提示需谨慎对待AI生成的统计结论。技术发展方面,为模型优化指明了方向——需加强基础理论训练,提升复杂推理能力。教育领域,Stateval的分类框架和题库资源可为统计学教学提供标准化参考。研究团队已公开完整数据集和评测代码,这种开放态度将促进学术社区共同完善评估标准,推动人工智能在科学计算领域的可信应用。

更多热门内容
入主东杰智能不久,韩永光拟收购遨博智能,能否助力公司逆袭?
据淄博日报,遨博原是北京的一家专精特新“小巨人”企业,2020年因资金等问题陷入困境,临淄区投资3亿元引进了该项目。 对于去年公司亏损的业绩,东杰智能在年报中解释称,2024年,受部分下游客户需求不振,行业…

2025-12-22

MiniMax通过上市聆讯:成立三年或成最短IPO AI公司,海外收入占比超七成
MiniMax自成立到2025年9月累计花费5亿美元(约35亿元),对比OpenAI的400亿至550亿美元累计花销,MiniMax用不到1%的钱做了全模态全球领先的公司。 招股书显示,MiniMax在20…

2025-12-22

三星猎户座2600芯片强势登场!2纳米工艺性能飙升,S26系列首发在即
而这次全新的三星S26系列也有望全系搭载猎户座2600,这个全球首款2纳米芯片也将成为三星S26系列的最大卖点,为其保驾护航。高通和联发科的2纳米芯片要等到明年9-10月才能发布,这也意味着三星S26系列能…

2025-12-22