ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米开源MiDashengLM-7B大模型,刷新22项评测记录,引领音频理解新潮流

时间:2025-08-04 20:09:35来源:ITBEAR编辑:快讯团队

小米公司近期宣布了一项重大技术进展,正式向公众开源了其声音理解大模型MiDashengLM-7B。这一举措标志着小米在AI技术研发领域迈出了重要一步,尤其是在声音理解方面。

据悉,MiDashengLM-7B在多个公开评测集上刷新了多模态大模型的最佳成绩,其单样本推理的首Token延迟仅为业界先进模型的四分之一,同时在同等显存下的数据吞吐效率更是达到了业界先进模型的20倍以上。这一卓越性能的实现,得益于小米在音频编码器和自回归解码器方面的创新设计。

MiDashengLM-7B基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。这一跨领域的理解能力,使得MiDashengLM-7B不仅能够准确识别用户周围的语音信息,还能深入理解环境声音和音乐背后的含义,从而提高了用户场景理解的泛化性。

小米表示,音频理解是构建全场景智能生态的关键领域。MiDashengLM-7B的推出,将进一步推动小米在智能家居、汽车座舱等领域的智能化进程。目前,该系列模型已经在小米的多个产品中得到了应用,为用户带来了更加智能、便捷的交互体验。

值得注意的是,MiDashengLM-7B的训练数据全部来自公开数据集,涵盖了语音识别、环境声音、音乐理解、语音副语言和问答任务等多个领域。小米在数据使用和处理方面的高度透明性,也为业界提供了可复现的参考案例。

在性能表现方面,MiDashengLM-7B在音频描述、声音理解、音频问答等任务中均展现出了明显的优势。与同类7B模型相比,MiDashengLM-7B在音频描述任务中的FENSE指标更高,声音理解任务中的性能也更胜一筹。在语音识别任务中,MiDashengLM-7B在GigaSpeech 2数据集上的表现尤为突出。

除了卓越的性能表现外,MiDashengLM-7B在推理效率方面也取得了显著提升。对于单个样本推理的情形,MiDashengLM-7B的首个token预测时间仅为Qwen2.5-Omni-7B的四分之一。在批次处理时,MiDashengLM-7B能够在80GB GPU上处理更大的batch size,从而提高了数据吞吐效率。

这一系列优势的背后,是小米在音频编码器设计方面的优化和创新。通过降低音频编码器的输出帧率,小米成功降低了计算负载,实现了推理效率的提升。这一创新设计不仅提高了MiDashengLM-7B的性能表现,也为业界提供了有益的参考和借鉴。

MiDashengLM-7B还采用了通用音频描述对齐范式进行训练。这一范式避免了传统ASR转录数据对齐方法的局限性,能够迫使模型学习音频场景的深层语义关联。同时,小米还利用多专家分析管道生成训练数据,对原始音频进行细粒度标注,从而提高了模型的训练效果。

小米表示,未来将继续对Xiaomi Dasheng系列模型进行升级和优化,寻求在终端设备上实现离线部署。这将进一步推动小米在AI技术研发领域的领先地位,为用户提供更加智能、便捷的交互体验。

更多热门内容
小米汽车智能驾驶新突破:雷军诚邀用户体验辅助驾驶新成果
在智能汽车市场日益激烈的竞争中,小米汽车正以雄心勃勃的姿态向辅助驾驶技术发力。值得注意的是,小米最近调整了其SU7新车订购页面的描述,将原本的“智驾”术语更改为“辅助驾驶”。小米在这一领域的积极投入和持续创新…

2025-08-04

小米SU7 Ultra纽北限量版亮相:赛道性能卓越,售价81.49万限量发售
日前,小米汽车官方震撼发布了SU7Ultra纽北限量版的实车图。与普通版相比,限量版在赛道专业性上更是下足了功夫,标配赛用桶椅和防滚架,令这款车在安全与性能之间达到了完美平衡。车内则是SU7Ultra纽北限量…

2025-08-04

小米汽车单月交付破三万,双车型齐发力加速电动市场布局
在电动汽车市场的激烈竞争中,小米汽车于2025年7月迎来了其历史性的一刻:单月交付量首次突破三万辆,与去年同期相比增长了20%。在竞争日益激烈的电动汽车市场中,小米汽车的双车型战略无疑将为其带来更多市场机遇与…

2025-08-04