近日,国内AI芯片领域迎来重要进展,专注于3D架构云端大算力芯片研发的算苗科技宣布,其自主研发的3D TokenPU芯片A4E已完成流片。这款芯片以大模型推理为核心应用场景,通过架构创新与工艺突破,为国产AI算力提供了新的技术路径。
区别于传统GPU设计思路,A4E芯片采用垂直堆叠的3D架构,将8层存储晶圆与计算逻辑晶圆通过硅通孔(TSV)和凸点(bump)技术实现微米级互联。这种设计将芯片间数据传输距离从毫米级压缩至微米级,带来16TB/s的超高访存带宽,有效解决了大模型推理中的数据吞吐瓶颈。据技术团队介绍,该架构通过物理层级的革新,突破了单纯依赖制程缩小的性能提升局限。
在架构设计层面,算苗科技引入Tile-Native软硬件协同理念。硬件层面以Tile为基本单元实现数据调度,支持多精度动态切换;软件层面构建了兼容LLVM、Triton等开源生态的编译工具栈。这种"硬件定义软件优化边界,软件反哺硬件设计"的闭环模式,使芯片在保持开发者友好性的同时,实现了算子优化效率的显著提升。
技术突破背后是深厚的工程积累。团队核心成员曾在高通量存算一体芯片项目中完成两代产品、万片级3D混合堆叠晶圆的量产验证。针对3D堆叠技术路线面临的良率挑战,技术负责人表示,前期量产经验使团队掌握了关键工艺参数的控制方法,形成了可复用的技术知识体系。
据创始人汪福全透露,A4E芯片从架构设计阶段就紧扣大模型Token处理特性,通过架构创新而非单纯制程升级,实现了算力密度与能效比的跨越式提升。这种差异化技术路线,为国内AI产业提供了自主可控的高性能算力选择,特别在推理场景下展现出显著优势。