富士通PHOTON架构突破AI算力瓶颈，小型模型多查询性能飙升475倍-人工智能-ITBear科技资讯

在人工智能技术加速迭代的当下，如何平衡算力成本与模型效率成为行业核心挑战。富士通近日宣布推出名为PHOTON的全新计算架构，通过创新性的分层处理机制，为解决传统Transformer模型在复杂场景中的性能瓶颈提供了新思路。

作为当前AI领域的基石架构，Transformer模型在处理长文本或高并发查询时面临显著局限。其核心问题在于依赖频繁的内存访问来调用历史信息，导致GPU计算资源被大量消耗于数据搬运而非核心运算。这种设计在需要实时响应的场景中尤为突出，成为制约模型效率的关键因素。

PHOTON架构的突破性在于重构了数据处理逻辑。区别于传统按词元（Token）逐个处理的方式，该架构采用语义分层技术，将输入数据解析为具有逻辑关联的语义单元。这种处理模式不仅降低了计算复杂度，更通过减少数据依赖关系实现了并行计算能力的指数级提升。在多查询任务处理中，系统通过动态决策机制，在"多数表决"与"最优选择"两种策略间自动切换，将传统需要多次推理的流程压缩为单次操作。

性能测试数据印证了架构设计的有效性。在600M至1.2B参数规模的小型模型测试中，PHOTON架构展现出显著优势：1.2B参数模型的多查询处理速度达到传统Transformer架构的475倍，同时内存占用降低超过80%。这种效率提升源于架构对KV Cache存储机制的优化，通过动态压缩历史信息存储量，使系统在相同硬件条件下支持更多次数的模型迭代。

值得注意的是，这种效率提升伴随一定精度折损，但在多数实际应用场景中，计算效率的收益远大于微小的精度损失。对于需要处理海量I/O操作的智能体系统而言，PHOTON架构通过减少数据搬运次数，有效缓解了内存带宽瓶颈，为构建更高效的AI基础设施提供了可能。

富士通研发团队透露，目前正与多个行业伙伴合作推进架构落地，重点优化其在边缘计算、实时推理等场景的应用。通过底层算法创新，该架构有望为智能客服、自动驾驶等对延迟敏感的领域提供更轻量化的解决方案，推动AI技术向资源友好型方向发展。