苹果公司在最新研究中取得突破性进展,推出了一项名为“多token预测”(MTP)的技术。这项技术旨在显著提升大语言模型的响应速度,同时保持输出质量不受影响。据科技媒体9to5Mac报道,MTP技术能够将大语言模型的响应速度提高2至3倍,在特定场景下甚至可以达到5倍的提升。
传统的大语言模型在生成文本时,通常采用自回归方式,即逐个输出token。这种方式虽然保证了文本的连贯性,但每一步都依赖于前序内容,导致生成速度受限。例如,在生成句子“The cat is black”时,模型需要在输出“is”后,基于上下文和训练经验,从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制在移动设备上尤为影响用户体验。
然而,苹果的研究团队在最新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现,尽管模型被训练为预测下一个词,但其内部实际上具备对后续多个词的潜在判断能力。基于这一发现,研究团队提出了MTP框架,支持模型一次生成多个词,从而大幅提升生成效率。
MTP技术的核心在于引入“掩码”(Mask)token作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果进行对比,如果不符,则自动回退到逐词生成模式,以确保输出质量不受影响。这种“推测-验证”机制在提速的同时,保留了传统方法的准确性,实现了速度与质量的平衡。
为了验证MTP技术的有效性,研究团队基于开源模型Tulu3-8B进行了实验。实验中,苹果训练模型最多推测8个后续token。结果显示,在问答和对话等通用任务中,响应速度平均提升了2至3倍;在代码生成、数学推理等结构化场景中,提速更是达到了5倍。这一性能提升并未以牺牲生成质量为代价,关键在于采用了“门控LoRA适配”技术,动态调节参数,仅在需要时激活推测模块。
MTP技术的推出为设备端大模型部署提供了新的路径。相比依赖云端计算,MTP技术可以在iPhone、Mac等本地设备上实现更快响应,降低延迟和能耗。这一技术兼容现有模型架构,具备较强的落地潜力。未来,苹果或将MTP技术集成至Siri、Apple Intelligence等产品中,进一步提升用户交互体验。