在人工智能领域,大模型的部署正逐渐成为产业界的焦点,尤其是在端侧设备的部署上。小米小爱同学端侧AI负责人杨永杰,近期分享了其团队在大模型端侧部署方面的探索与实践。
面对手机、车载、IoT等设备的严格要求,大模型的部署成为了一项复杂的工程挑战。这些设备对模型体积、推理时延、功耗以及更新机制都有着极高的要求。杨永杰的团队从架构、系统和算法三个层面入手,致力于解决这些问题。
在推理框架方面,小米团队自研了一款针对大模型的推理框架,实现了180 tokens/s的实时推理性能。这一性能的提升,得益于团队在框架层全栈自研的努力,以及对各个模块性能的细致优化。同时,团队还借鉴了云端的成熟优化手段,并针对端侧进行了适配和改进。
在模型优化方面,团队采用了LoRA插件化+共享基座模型的方案,支持多业务复用。这一方案不仅提高了模型的利用率,还在推理性能和资源占用上实现了极致优化。通过为不同业务单独训练对应的LoRA模块,团队实现了在资源有限的设备上支持多个业务的能力。
杨永杰指出,尽管端侧大模型被视为未来的重要方向,但在商业化落地方面仍面临一些挑战。其中,端侧设备本身的资源限制是一个主要问题。无论是算力还是带宽,相比云端来说都比较有限。因此,团队在模型量化、推理速度等方面进行了大量优化,以适配端侧设备的限制。
在并发管理方面,由于端侧设备的NPU本身不支持并发推理,团队在架构上做了并发管理,通过调度和切换机制,尽量保障各条业务链路在预期时间内完成推理。同时,团队还采用了投机推理(Speculative Decoding)优化,在端侧实现了高达7~10倍的decoding加速,大幅缓解了端侧推理慢的问题。
在跨芯片平台部署方面,团队进行了模块化、通用化的设计,以确保兼容性与性能的平衡。通过模块化、后端解耦的设计,团队成功适应了多种端侧芯片平台的部署需求。
杨永杰还分享了团队在性能优化方面的一些经验。他表示,团队在优化时采用了多种技术组合的方式,如低比特量化、并行解码、带宽控制等。这些技术都是尽可能组合使用的,以最大化优化效果。同时,团队还根据业务的实际需求,优先实现了那些技术价值较大、适用面更广的优化方式。
对于未来,杨永杰认为端侧大模型的突破将依赖于硬件能力的提升和模型架构的演进。随着新一代面向大模型的端侧芯片的出现,端侧模型的能力将大幅增强,更多业务也将有机会真正落地。同时,模型架构的变化也将为端侧大模型带来新的机遇,如Linear Attention架构等。
杨永杰将于6月27~28日在北京举办的AICon全球人工智能开发与应用大会上发表演讲,分享其团队自研的大模型推理框架在实际业务中的落地实践。相信这一分享将为业界带来更多启示和思考。