算苗科技3D TokenPU芯片A4E流片，以创新架构为大模型推理注入新动能-人工智能-ITBear科技资讯

近日，国内AI芯片领域迎来重要进展，专注于3D架构云端大算力芯片研发的算苗科技宣布，其自主研发的3D TokenPU芯片A4E已完成流片。这款芯片以大模型推理为核心应用场景，通过架构创新与工艺突破，为国产AI算力提供了新的技术路径。

区别于传统GPU设计思路，A4E芯片采用垂直堆叠的3D架构，将8层存储晶圆与计算逻辑晶圆通过硅通孔（TSV）和凸点（bump）技术实现微米级互联。这种设计将芯片间数据传输距离从毫米级压缩至微米级，带来16TB/s的超高访存带宽，有效解决了大模型推理中的数据吞吐瓶颈。据技术团队介绍，该架构通过物理层级的革新，突破了单纯依赖制程缩小的性能提升局限。

在架构设计层面，算苗科技引入Tile-Native软硬件协同理念。硬件层面以Tile为基本单元实现数据调度，支持多精度动态切换；软件层面构建了兼容LLVM、Triton等开源生态的编译工具栈。这种"硬件定义软件优化边界，软件反哺硬件设计"的闭环模式，使芯片在保持开发者友好性的同时，实现了算子优化效率的显著提升。

技术突破背后是深厚的工程积累。团队核心成员曾在高通量存算一体芯片项目中完成两代产品、万片级3D混合堆叠晶圆的量产验证。针对3D堆叠技术路线面临的良率挑战，技术负责人表示，前期量产经验使团队掌握了关键工艺参数的控制方法，形成了可复用的技术知识体系。

据创始人汪福全透露，A4E芯片从架构设计阶段就紧扣大模型Token处理特性，通过架构创新而非单纯制程升级，实现了算力密度与能效比的跨越式提升。这种差异化技术路线，为国内AI产业提供了自主可控的高性能算力选择，特别在推理场景下展现出显著优势。