ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

智谱AI推出数学模型MathGLM,阿里云魔搭社区全球首发

时间:2023-09-24 10:45:42来源:互联网编辑:汪淼

9月24日消息,智谱AI推出数学模型MathGLM,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,部分表现超过GPT4和ChatGPT,目前已在魔搭社区ModelScope全球首发上架。

过往研究认为,大语言模型并不能精确执行高位数的算数运算,尤其是涉及超过8位数的乘法运算以及涉及小数、分数的运算。但MathGLM的出现,足以打破这些偏见。

MathGLM包含10M、100M、500M、2B等多个参数版本,具备处理最多12位数字的运算能力。而且有测评结果显示,通过充分的数据训练,MathGLM-2B可以准确执行多位数的算术运算,准确率高达93.03%(接近100%),显著超越GPT-4在相同测试数据上18.84%的准确率。10亿参数版本的MathGLM-10B则在5000条中文数学应用题的测试数据集上实现了接近GPT-4的性能。

MathGLM出色的表现,离不开其在模型架构、数据集等方面的一系列创新。

针对算术任务,研发团队采用Transformer的decoder架构,并使用自回归目标在生成的算术数据集上从头训练。算术训练数据集包含各类算术任务、各种运算符(含加法、减法、乘法、除法和求幂)、多种数字格式(含整数、小数、百分比、分数和负数)。研发团队还采用分步计算策略对该数据集进行了重构,并且让单个算术表达式由 2 到 10 个运算步骤组成,以方便MathGLM对每个中间结果进行准确计算,从而得到每个算术表达式的正确答案。

评测结果显示,MathGLM在一个包含9592条测试用例、专门为算术任务量身定制的数据集上的表现,显著优于GPT4和ChatGPT。

针对更复杂的数学问题——中文应用题,研发团队微调了一系列以GLM为基座模型、用于解决数学应用题的MathGLM。

训练过程中使用了一个包含21万道中文小学数学题的高质量数据集Ape210K,但其不足之处在于每个题的答案都是直接计算得出,缺乏相应的计算过程。因此,研发团队采用分步策略对Ape210K数据集进行了重构,方便MathGLM深入理解和学习潜在的计算逻辑和规则,逐步计算出每个数学问题的答案,提升最终答案的准确性。

此外,研发团队还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM,赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

在Ape210K数据集上进行测试的结果显示,MathGLM模型在答案准确性方面已接近GPT-4。在一个包含1-6年级数学应用题的数据集K6上进行评测的结果显示,MathGLM相比于其他中文模型(GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B等),呈现出了更强的数学推理能力。

为方便开发者快速上手体验MathGLM,魔搭社区第一时间推出了模型体验、推理实践教程。

阿里云魔搭社区是国内规模最大、开发者最活跃的AI模型社区,拥有200多万开发者,聚集了20多家头部人工智能机构贡献的1000多款优质AI模型,为开发者提供一站式的模型体验、下载、推理、调优、定制等服务,社区模型累计下载量已突破7500万次。“找大模型,上魔搭”正在成为开发者的共识。

附:

MathGLM模型地址:

https://modelscope.cn/models/ZhipuAI/MathGLM/summary

魔搭创空间MathGLM模型体验链接:

https://www.modelscope.cn/studios/ZhipuAI/MathGLM-demo/summary

魔搭教程链接:

https://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247486650&idx=1&sn=b1a729a720947a56a27d64dac1182519&chksm=c15e88c9f62901df978105f8ad084a72e651fbb97a7768b4159ecec751120c9772b795a41524#rd

更多热门内容
IASP2025年世界大会在京圆满闭幕 签约42项中外合作项目
秋日的北京,创新涌动、合作如潮。经过五天密集而富有成效的大会议程,国际科技园及创新区域协会(IASP)2025年世界大会于9月19日在北京国家会议中心圆满落下帷幕。本次大会以“追求卓越——创新集群助力高质量发展”为主题,成功搭建了全球科技园区开放对话、务实合作的

2025-09-21

内容消费种草Z世代,抖音电商助力英特尔实现“品效合一”
当游戏从单纯的娱乐工具逐步演变为数字陪伴与精神载体,Z 世代用户已将其视作重要的情绪消费场景。搭载英特尔酷睿处理器的高性能游戏设备,以及英特尔酷睿Ultra处理器的AI PC,有效兼顾游戏体验与生产力、AI应用场景的需求,受到Z世代玩家青睐。《2025 游戏行业抖音经营

2025-09-21

丰收节还能这么玩?提前剧透大北农的“节目单”
九月末的北京,秋意初显。在大北农凤凰国际创新园的神农广场上,9月23日就会迎来一场热闹的丰收节。一曲《大丰收礼赞》将以恢弘鼓声正式敲响丰收节的序幕。随后,现场奏唱《国歌》与大北农企业之歌《强农报国》,来自全国各地的农业代表、企业嘉宾与市民观众将共同见证

2025-09-21

X10幻影Plus,全球首发丨EJEAS爱骑仕打破技术壁垒,解锁骑行通讯对讲无限可能
9月20日,在2025中国摩博会的璀璨舞台上,EJEAS爱骑仕以“无线电MESH对讲技术”引领行业革新,正式全球首发最新力作——X10幻影Plus摩托头盔对讲机。这一突破性产品不仅重新定义了专业摩托骑行通讯的技术标准,更以前沿科技与创新设计的精妙融合,瞬间成为全场瞩目的焦

2025-09-21

2025数字音乐产业大会:中国数字音乐产业基地版权服务工作站揭牌
9月19日-21日,2025中国数字音乐产业大会在厦门召开,19日,大会分论坛“数字音乐版权生态建设论坛”正式举行。本次分论坛由中国音数协数字音乐工作委员会、中国音数协数字音乐产业研究专家委员会主办,网易云音乐、国家版权创新发展基地(四川天府新区)联合协办,汇聚了

2025-09-21

更快到手新机 调研显示通过即时零售购iPhone 17中88.39%用户选京东秒送
9月19日8点,iPhone 17系列新品全面开售。与往年新机发售不同的是,今年消费者的购机需求中,“快”成为了核心关键词之一。越来越多渴望尽早体验新机的用户,开始通过即时零售平台下单 iPhone 17 。《iPhone17首销调研》报告更是显示,33.96%的用户希望“越快越好,愿意

2025-09-21

Aqara智能隐形窗帘电机C200发布,首款原生支持Apple Home
9 月 10 日,全球空间智能领导品牌 Aqara 今日正式发布智能隐形窗帘电机 C200。作为首款原生支持 Apple Home 的隐藏智能窗帘,不仅采用全嵌隐藏设计,C200 还可让用户可通过 iPhone、Apple Watch、HomePod 等设备无缝控制窗帘,尽享专属「果粉」的高阶智能生活体验。同

2025-09-20

不同集团赴港上市,高端母婴品牌BeBeBus以洞察破局
近日,高端母婴品牌BeBeBus母公司不同集团于9月15日至18日公开招股,预计9月23日正式上市。基石投资者包括波司登集团关联的信庭基金、百亿级私募机构上海通怡投资及来自新加坡的Great Praise Investment,总认购金额达1500万美元,市场认购反响热烈。从新锐品牌变成国内

2025-09-20

鸿蒙生态加速进击,华为“天工计划”投入10亿元支持AI生态创新
在华为全联接大会2025(HUAWEI CONNECT 2025)上,华为宣布HarmonyOS 5终端设备数量已突破1700万台,鸿蒙生态全速进击发展,AI全场景体验全面升级,并正式启动“天工计划”,未来将投入10亿元人民币资金与资源,全面支持鸿蒙AI生态创新,携手开发者共同迈进鸿蒙AI新阶段。

2025-09-20

中国摩博会九号公司何飞龙:真正的智能电摩,应能“越骑越懂你”
日前,2025中国摩托车重庆论坛隆重举行,来自全国摩托车产业的领军企业、行业专家齐聚山城,共谋行业发展新路径。在备受关注的“新机遇、新模式”圆桌会议环节,九号公司中国经营事业部总裁何飞龙分享了九号公司在产品创新、前沿技术布局与用户体验升级方面的实践,并提

2025-09-20