北美与欧洲联合成立的AI芯片初创企业Tensordyne近日发布新一代AI推理系统Tensordyne Napier(TDN),该系统在能效比和计算吞吐量上实现重大突破。据测试数据显示,TDN系统在词元处理能效方面达到英伟达Blackwell架构的17倍,单位时间吞吐量提升13倍,为大规模语言模型(LLM)的实时推理提供全新解决方案。
核心硬件Napier处理器采用台积电3纳米制程工艺,通过与博通、HPE瞻博网络的技术协作完成流片验证。该处理器创新性地引入对数数学架构,将传统AI推理中依赖的复杂乘法运算转化为加法运算,在保持计算精度的同时显著降低功耗。芯片内部集成大容量SRAM缓存与高带宽HBM内存模块,配合优化后的片间通信协议,将处理器间数据传输延迟压缩至1微秒以内。
基于Napier处理器构建的TDN72推理舱整合72颗算力芯片,通过模块化设计实现灵活扩展。单个标准机柜可部署四个推理舱,总计集成288颗处理器芯片。这种架构使机架级系统具备每秒每用户处理1000个词元的能力,在支持T级参数规模LLM推理时,年营收潜力可达3300万美元。系统特别针对云服务提供商和AI算力租赁场景优化,支持动态资源分配与弹性扩展。
技术团队透露,Napier处理器的对数运算架构经过三年研发验证,通过数学变换重构神经网络计算流程,在保持模型准确率的前提下,将单位词元能耗降低至行业平均水平的5.8%。内存子系统的创新设计使芯片可同时访问本地缓存与外部HBM存储,数据吞吐效率较传统架构提升40%。目前该系统已完成与主流AI框架的适配,支持从千亿到万亿参数模型的平滑部署。