ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Flash Attention作者播客谈AI未来:英伟达GPU主导或三年内生变,推理成本有望再降10倍

时间:2025-09-29 17:50:07来源:互联网编辑:快讯

在最新一期科技播客《Unsupervised Learning》中,Flash Attention算法发明者、普林斯顿大学教授Tri Dao就AI硬件生态变革、模型架构演进等核心议题展开深度探讨。这位同时担任TogetherAI首席科学家的研究者指出,未来三年内英伟达在AI加速卡市场的绝对主导地位将面临根本性挑战,专用芯片的多元化发展将成为主流趋势。

针对硬件市场的竞争格局,Tri Dao观察到随着Transformer、MoE(专家混合模型)等架构的标准化,芯片设计正从通用型向专用化转型。AMD凭借大容量内存优势已在推理市场占据先机,而训练端受制于网络通信瓶颈仍由英伟达主导。但他强调,当工作负载逐渐聚焦特定架构时,新入局者通过精准定位低延迟智能体系统、高吞吐批处理等细分场景,完全可能打破现有格局。

在模型架构创新层面,MoE架构的稀疏计算特性正在重塑行业规则。Tri Dao以DeepSeek提出的multi-head latent attention机制为例,说明通过潜在投影压缩KV缓存可显著降低内存占用。这种技术演进使得在128个专家单元中仅激活4个的极端稀疏模型成为可能,相比早期Mistral的8选2模式,计算效率提升达8倍。与此同时,状态空间模型(如Mamba)通过历史状态压缩技术,在大批量推理场景中展现出独特优势。

推理成本三年百倍下降的奇迹背后,是多重技术突破的协同效应。模型量化技术将参数精度从16位压缩至4位,在几乎不损失精度的情况下将模型体积缩减75%。Flash Attention通过重构内存访问模式,使注意力计算效率提升3-5倍。硬件与算法的协同设计更催生出新型优化范式,例如针对MoE架构的分布式专家部署方案,有效解决了跨芯片通信瓶颈。

对于未来技术演进方向,Tri Dao预测将出现三大核心工作负载:实时交互型(如代码辅助)、极低延迟型(如智能体决策)、高吞吐批处理型(如合成数据生成)。这种分化促使硬件供应商采取差异化策略,某些厂商专注将延迟压缩至2毫秒以内,另一些则通过集群优化实现每秒万级请求处理。TogetherAI采用的"舰队级"动态资源分配系统,已能根据实时负载自动切换工作模式,使批量API成本降低50%。

在自动化编程领域,AI与人类的协作模式正在发生质变。Tri Dao团队通过Claude Code实现的Triton内核生成,使开发效率提升1.5倍。更值得关注的是o3模型展现出的架构设计能力,它能准确指出函数优化的关键路径。这种代理式AI的发展,预示着未来开发者将更多聚焦于高层设计,而将具体实现交给智能协作系统。

关于通用人工智能(AGI)的实现路径,Tri Dao认为现有Transformer架构已具备核心要素,但架构创新可能将成本降低10倍。他特别强调"推理优先"的设计理念,指出未来架构需在每分钱推理效率(inference per flop)和每浮点运算产出(FLOPs per dollar)两个维度持续突破。在机器人领域,多模态世界模型与实时控制系统的融合,正在解决多时间尺度决策的行业难题。

对于开源与闭源模型的竞争,Tri Dao预测两者质量差距将在年内显著缩小。随着强化学习工具链的成熟,开源社区在模型微调方面的效率优势将愈发明显。而在数据层面,合成数据生成技术正在创造新的价值增长点,某些场景下模型生成的数据质量已接近人工标注水平。

在学术与产业的平衡方面,Tri Dao的双轨制实践提供了独特范本。他在普林斯顿的研究团队专注于2-3年的前瞻性技术,如机器人多分辨率控制系统;而TogetherAI的工程团队则聚焦于月度级别的产品迭代。这种探索与开发的结合模式,既保证了基础研究的自由度,又维持了商业落地的敏捷性。

更多热门内容
智启新章:AI时代企业技术变革五策,构建持续竞争力体系
人工智能(AI)正加速从试点走向企业级部署,生成式AI的突破推动了组织在技术架构、运营流程和人才能力上的系统性变革。 本文将结合贝恩的实践经验,深入剖析企业在AI时代所需重点推进的五项核心举措,助力构建具备持…

2025-09-29

蚂蚁百宝箱与友盟携手,为开发者铺就智能体时代“一站式”便捷开发之路
此外,在教育领域,友盟和蚂蚁百宝箱共同为国民级家校协同教育工具“班级小管家”注入 AI 动能,基于蚂蚁百宝箱智能体平台能力及友盟平台数据产品能力,服务了师生、家长在教育各环节家校协同场景,便利学生在课堂练习…

2025-09-29

GPT-5助力量子计算研究,大牛Scott盛赞:半小时内给出关键证明思路
换句话说,是否存在一种方法,使得如果答案为“是”,Arthur可以100%接受这个答案,而不是只有2/3的概率? 但当Scott把问题抛给GPT-5后,5分钟后它就自信满满地给出了一个答案,不过Scott一…

2025-09-29

浪潮AI服务器双管齐下:10ms级推理+1元百万Token,赋能智能体规模化落地
今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。 未来,其将进一步针对核心算法算子进行硬件化、电路化设计,实现性能的数量级提升,从而有效应对未来Tok…

2025-09-29

余承东宣布:鸿蒙5终端设备达2000万
华为常务董事、终端BG董事长余承东近日通过视频向用户送上节日祝福,并透露鸿蒙5系统终端设备装机量已突破2000万台。这一数据较此前公布的1700万台实现快速增长,标志着鸿蒙生态建设迈入新阶段。

2025-09-29

象屿集团携手钉钉,借AI之力开启数智化新篇,3万员工共赴转型新程
象屿集团此次与钉钉合作,不仅是AI技术平台的引入,更是双方对未来发展方向的高度共识。 值得一提的是,象屿集团此次全面引入钉钉One、DingTalkA1、AI听记、AI搜问、AI表格等钉钉AI新品,聚焦用…

2025-09-29