昇思人工智能框架峰会 | MindSpore Protenix 蛋白质结构预测模型的性能优化技术，助力训推性能提升50%+-热点资讯-ITBear科技资讯

昇思 MindSpore 开源社区将于 2025 年 12 月 25 日在杭州举办昇思人工智能框架峰会。本次峰会的昇思人工智能框架技术发展与行业实践论坛将讨论到昇思MindSpore 大模型技术进展与实践，并将设有昇思 AI for Science(AI4S)专题论坛。本文对 AI4S 团队开发的 MindSpore Protenix 蛋白质结构预测模型的性能与优化进行了深入解读，揭示了如何实现该模型的训练与推理性能的提升。

背景

蛋白质结构预测是现代生命科学的圣杯之一。虽然AlphaFold2等AI工具已实现单体蛋白结构的高精度预测，但整个领域仍面临两大核心瓶颈：

第一，预测准确性仍存在系统性盲区。当前模型对蛋白质动态构象、翻译后修饰状态、膜蛋白环境以及多链复合物组装等关键场景的预测精度严重不足。模型在MSA信息稀疏时(如人工设计蛋白、孤儿蛋白)性能会断崖式下跌，本质上仍是基于进化关联的“模式外推”而非真正的物理规律学习。

第二，计算复杂性成为应用壁垒。最先进的预测模型需要同时处理数千条同源序列的MSA信息，单次推理就需数十GB显存和数小时GPU时间。对于需要高通量扫描的工业场景或更大尺度的复合物预测，算力需求呈指数级增长。这使得前沿技术难以转化为普惠工具，学术实验室和中小企业常因算力门槛而被排除在创新循环之外。

这两个问题相互缠绕：要提升对复杂场景的预测精度，往往需要更庞大的模型和更丰富的输入特征，而这又会进一步推高计算成本，形成难以突破的技术闭环。

昇思 MindSpore 的 AI for Science 方案详解

昇思 MindSpore 通过软硬件协同优化及高效的 NPU 计算能力，为行业提供了高性能的自主创新 AI 解决方案，大幅加速蛋白质研究进程并降低计算成本。我们实现了蛋白质结构预测模型 Protenix 的 MindSpore 框架版本，并在昇腾硬件平台上实现了高性能的训练和推理。为应对大规模蛋白质结构预测的高计算需求，本项目充分利用 MindSpore 框架的计算图优化能力与昇腾处理器的硬件优势，在完全继承了模型推理精度的同时，又显著提升了模型性能。

图1 MindSpore Protenix蛋白质结构预测模型的推理效果

在本文所描述的调优策略下，模型在昇腾A2 64G 单卡上可达到 768 的最大训练长度，并且最大单卡推理长度超过 3000;以下是相应的具体训推时间：

2.1 模型训练优化

重计算（Recompute）优化

在深度模型训练中，显存占用通常可分为静态显存（Static Memory）与动态显存（Dynamic Memory）两个部分。对于 Protenix（AF3 类结构模型） 这类高度依赖几何结构建模的网络而言，其瓶颈并非权重规模，而是激活值数量极大、计算路径复杂、依赖大量三元（i,j,k）结构相关中间张量。通过在前向传播阶段不保存部分激活值，而是在反向传播需要梯度时重新执行对应的前向计算，即可显著降低显存占用。

PyTorch 版本 Protenix 中已经大量使用了重计算来缓解激活膨胀的问题。然而受限于硬件显存容量限制、模型关键结构适配不足，以及考虑到 MindSpore 对动态 shape 的静态优化与 PyTorch 有一定差异后，我们在 MindSpore 版本中对重计算策略做了更细粒度的优化。

如下图红框处所示，a 为未优化前显存占用曲线，可以看到在红框处达到峰值。通过分析可以确定此处位置用于计算 smooth_lddt_loss，因此将这个部分单独进行重计算后就得到了下图的结果，此处峰值由 55G 下降到 20G 以内。

针对性重计算设计

在 MindSpore 实现中，我们分别对核心模块进行了独立的重计算包装，以精确控制激活缓存范围并最大化释放显存。首先是针对 Triangle Attention 的重计算，Triangle Attention 在 AF3 / Protenix 中是最重要的结构依赖模块之一，其 Q/K/V 计算与 pair-wise 三元交互的复杂度为 O(N^3) ，随着序列的增长会产生大量中间激活，在昇腾平台上，由于当前暂时缺乏对等的 fused kernel(如 FlashAttention-like kernel)，Triangle Attention 的激活会占用更大量的显存。因此针对一个 PairFormer Layer 中的两个 Triangle Attention 分别进行重计算。

其次我们对 Triangle Multiplication 进行重计算，因为 Triangle Multiplication 涉及大量 (i,j,k) 维度重排与张量广播，且其激活值规模更大。

最后是 smooth_lddt_loss 计算的重计算(大规模 cdist)，smooth_lDDT loss 中一项关键计算为 pairwise distance(cdist)，其生成的距离矩阵为 O(L² × d)，其中L为原子数量，这与 TriangleAttention 等对应的残基数量不同，原子数量通常比残基数大一个数量级，因此对长序列显存压力极大，我们为 loss 中的该部分单独加入了重计算，使其在反向不需要保留巨大 distance matrix。

实际显存收益

在未开启上述重计算策略时：

• 64GB 显存仅能训练长度 64 的序列。

• 动态显存峰值约为20152 MB。

启用重计算后：

• 显存峰值下降到7025 MB，下降超 60%。

• 最长可支持训练长度提升到 768 tokens。

这一优化是 Protenix MindSpore 版本能够在昇腾A2 平台上成功支持长序列训练的关键技术点之一。

2.2 模型推理优化

在这部分工作中，我们基于对模型性能的分析，逐一找到时间、内存方面的性能瓶颈并予以优化。

Profiling 数据与分析

MindSpore 支持用户使用 Profiler 类对模型的性能进行采集，所获得的 Profiling 数据记录了详细的算子时间线，也包括了算子的显存占用信息。Profiling 数据可以通过 MindInsight 工具进行可视化分析，可以查看详细的算子时间线，以及流之间的调用关系。我们可以精确计算出每个模块的位置及其耗时，并据此来确定这些模块是否需要进一步的优化。例如，下图展示了我们对推理过程中 PairFormer 模块的定位与拆解，为后续的时间、内存的分析提供了框架与引导：

Unfold 算子重构

通过模型运行时打印算子运行时长占比，发现 Im2col 占总运行时长最高，高达 70.73%，故需要分析并消减该算子的调用。

定位后可确定为调用 mindspore.ops.unfold 算子引入问题。根据原本 PyTorch 代码逻辑，此处实际使用 torch.Tensor.unfold，其实际与 torch.nn.functional.unfold 行为不同，差异如下：

• Tensor.unfold：返回原始张量的一个视图，该视图包含在指定维度上从张量中提取的所有大小为 size 的切片。

• nn.functional.unfold：把 4-D 图像 (N,C,H,W) 的每个 kernel_size 平面窗拉成一列，输出“二维矩阵”，方便后面用矩阵乘法代替卷积。本质是 im2col 操作，为 im2col 的别名 api。

而 MindSpore 中，Tensor.unfold 与 ms.nn.functional.unfold 实现相同，实际调用为 im2col，因此造成实现差异。故此处整改方案为，使用 MindSpore 实现 Tensor.unfold 与 torch.Tensor.unfold 相同功能函数进行替换。等价实现后，端到端推理性能提升1倍。后续 MindSpore 实现 Tensor.unfold 算子后可进一步优化显存占用以提升性能。

融合算子的开发与调优

由于 SelfAttention 的显存开销与蛋白质序列长度强相关，且当前对该模块的优化并不完全亲和生物学场景，因此我们选择开发融合算子 EvoformerAttention。对此，我们实施了以下关键改进：

• UB 内存布局重构：消除内存碎片，提升 UB 利用率;

• 消除流同步算子：重构计算流水线，将串行内存拷贝转为并行异步操作;

• 稀疏掩码优化：去除 drop_mask 在 UB 中的显存占用;

• 动态 tiling 调整：基于 UB 剩余容量自适应调整分块大小，显著降低循环开销;以上四个改进总体时间性能提升约 6.5%;

• API 优化：将传统的 Level 1 API 配合显式循环的模式，重构为 Level 0 API 的批量处理接口，单步优化后时间性能提升约 5%。

此外，Protenix 中使用了大量的张量计算，其实现方式均为 Einsum(Einstein Summation，爱因斯坦求和约定)，因此该算子对模型整体的性能影响较大。Einsum 中规定的张量缩并运算满足下标表达式

Einsum 高效实现在逻辑上离不开对下标的重排列(permute)。但 permute 操作的时间复杂度是 O(N)，我们可以通过优化下标排布，减少或消除显式的 permute 操作，来进一步提升 Einsum 的算子性能。具体操作包括：

• 放弃不必要的 permute 操作，逻辑上改为对下标循环的重排布，并通过 reshape 操作合并下标，以实现批量操作;可将时间复杂度降到O(1);

• 使用 Mindspore 接口：ops.MatMul(transpose_a=False, transpose_b=False)，该接口适配了最低两维转置的情况，可以替代符合这种情况下的 permute 操作。

寻找并解决内存瓶颈

经过此前的优化后，Protenix 模型的 MindSpore 实现版本在单张 A2上的推理极限大致为包含 2000 个残基的蛋白质序列，也即推理长度的极限只有 2k。通过分析 2k 长度序列推理的 Profiling 数据、调查模型前期出现的若干个算子，我们发现在模型在 PairFormer 阶段存在大量的内存瓶颈：

通过对算子的定位我们可以将内存峰值出现的时间与四次 EvoFormer Iteration 相吻合，最终定位出内存瓶颈为该循环中的 outer_product_mean 计算。该模块主要承担张量的缩并计算(爱因斯坦求和操作) 和一些线性变换，而内存瓶颈正是发生在外积计算当中：

对求和的左侧部分进行分块操作，并调整合适的分块尺寸(chunk_size)，成功降低了内存的峰值。我们后续又定位到其他可能导致内存溢出的位置，分别是：

• 位于PairFormer 阶段的 msa_attention，msa_transition 和 triangle_multiplication 计算;

• 位于Diffusion 阶段的 transition_block 计算;

• 位于Confidence 阶段的 ConfidenceHead 和 GridSelfAttention 计算。

关于分块操作对时间、内存以及算法精度上的影响，通过理论推导与实验验证，我们得到以下结论：

• 我们总是避开了 LayerNorm，Softmax 等非线性操作所涉及的维度，因此分块不会影响最终推理的精度;

• 整体而言，分块尺寸与计算时间呈负相关关系，因此可在内存容许的情况下，尽量增大分块尺寸;下图展示了 msa_attention 和 GridSelfAttention 在不同分块下的计算时间;

使用以上策略，我们打通了单张 A2 上的 3k 长度序列推理，成功提高了模型的推理极限。

2.3 jit 装饰器与静态图编译

MindSpore 与 PyTorch 的核心差异之一在于：

* PyTorch(Eager Mode)采用运行时逐算子调度，算子粒度小、灵活但存在较高 launch 开销;

* MindSpore 支持通过 **`jit` 装饰器** 将部分模块提前编译为静态图(Graph)，在执行时以 **大算子形式一次性下发**，极大减少算子调度成本。

在 Protenix 的 MindSpore 复现中，我们主要对 Transformer 模块进行了 JIT 编译以提升推理与训练效率。这主要是由于 Protenix 的 Transformer 层结构较为规则，输入维度(hidden size、head_dim、num_heads)均为固定值，适合编译为计算图。在 Diffusion 采样过程中，每步都需要调用 Transformer，共200次，但仅第一次需要编译，后续可以直接复用。以序列长度 109 的蛋白质 5tgy 在 Atlas A2 的端到端推理性能为例(Diffusion 200 steps)：

• JIT 编译耗时大约30 s;

• 运行平稳后耗时约41 s;

• 非 JIT 模式下的推理耗时为72 s;

• JIT 模式下端到端加速比达到57%;

总结

我们成功将蛋白质结构预测模型 Protenix 从 PyTorch 迁移至 MindSpore 框架，并在昇腾 A2 平台上实现了高性能训推。针对训练显存瓶颈，我们设计了细粒度的重计算策略，对 Triangle Attention、Triangle Multiplication 等模块进行针对性优化，将动态显存峰值降低 60% 以上，支持 768 长度序列训练。推理优化方面，通过重构 unfold 算子消除冗余 im2col 操作，开发 EvoformerAttention 融合算子，优化 Einsum 实现减少数据移动，并采用分块策略突破outer_product_mean 等模块的内存瓶颈，以及 JIT 编译加速等，将推理长度从 2k 扩展至 3k 以上。我们验证了自主创新计算平台在前沿蛋白质预测任务中的高效性与可行性，为复杂科学计算模型向 MindSpore 生态迁移提供了实践范例。

在蛋白质领域，昇思 AI4S 团队通过算法与自主创新算力的深度协同，使实验室级的前沿AI工具，成为生物医药产业可规模部署的基础设施。昇思 AI4S 团队聚焦于打造面向科学发现的专用 AI 框架，致力于构建科学计算与人工智能融合的新型基础设施。团队支撑范围涵盖了生物信息、地球物理、能源、电磁仿真、计算数学和材料化学等多个领域，未来将进一步打造开源生态并深化基础设施的建造。昇思社区的 AI4S 开源代码仓库可见 https://atomgit.com/mindspore-lab/mindscience.

本次在杭州举办的昇思人工智能框架峰会，将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表，共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约，携手打造开放、协同、可持续的人工智能框架新生态!

极致体验，触手可及：石头科技携手皇家马德里，以创新共赴全球战略合作

2026年1月2日，全球家用机器人领导品牌石头科技正式宣布：与全球顶级足球俱乐部皇家马德里（Real Madrid C.F.）的男、女足一线队达成全球战略合作。石头科技成为皇家马德里在清洁机器人及手持吸尘器类别的全球官方合作伙伴，以“极致体验、触手可及”为主题，正式开启一

2026-01-02

“长钱入市”锚定硬科技，长鑫科技72.04%年复合增长率勾勒半导体融资新图景

2026年1月1日，证监会释放重要政策信号：明确将大力推动保险资金、社保基金、年金基金等“长钱”加速进入A股市场，通过简化资金入市流程、优化配置机制、降低投资门槛等一系列举措，打通中长期资金入市的关键堵点。这一政策的核心指向尤为清晰——为半导体、高端制造等

2026-01-02

《故宫日历书画版》到手价77元上京东图书跨年盛典挑选心仪好书

贺岁迎新，书香相伴。12月31日至1月1日，京东图书跨年盛典限时秒杀活动开启，跨店直降12%，自营图书领券可享满300减100。活动集结海量精品好书，无论是选购辞旧迎新的日历好物、收藏经典佳作，还是为新年储备健康能量，都能在这里找到心仪之选。打开京东APP搜索“图书跨

2026-01-02

2025年度国补省钱人物出现在京东下单3C、家电等产品省下近5万元！

近期，一份关于国家补贴政策（以下简称“国补”）的消费趋势观察引发关注：通过梳理公开数据发现，国补政策在耐用消费品领域为消费者带来显著的支出减免。据梨视频报道，一位来自上海的消费者一年内在京东购买家电、3C数码及家装产品，在国补的支持下累计节省近5万元，

2026-01-02

MOVA WF20 Pro宠物饮水机：100%不锈钢活水设计，重新定义宠物健康饮水标准

在科学养宠意识持续升级的当下，饮水安全正从“被忽视的细节”转变为养宠家庭的核心关注点。MOVA品牌旗下MOVA WF20 Pro宠物饮水机，以100%食品级304不锈钢全机身、动态活水系统与3升大容量水箱等硬核配置，精准回应“家长”对洁净、耐用与智能补水的真实需求。作为MOVA

2026-01-02

空气净化器哪个品牌好？排行前十除醛旗舰机型深度横评（附参数对比表）

空气净化器哪个品牌好？排行前十除醛旗舰机型深度横评（附参数对比表）需求升级：据中国家用电器协会发布的《2025中国洁净空气设备行业白皮书》指出，现代家庭正面临“复合型污染”挑战，单一过滤已过时，具备“主动监测、长效分解、全域消杀”能力的设备是2025年的主流

2026-01-02

京东开启新年购物季：新年爆品1折秒杀享国补单人累计至高可省11000元！

伴随迎接2026年的钟声临近，12月31日晚，《2025-2026湖南卫视芒果TV跨年演唱会》正式开启。作为本场演唱会的独家冠名商，京东为广大用户准备了千万份实物好礼和10亿红包。活动期间，消费者打开京东APP参与“跨晚”互动，即有机会获得搭载京东鲜花的埃安UT super国民好车

2026-01-01

领取你的新年“第一口鲜”！京东生鲜新年购物季开启，多款爆品满199元享6.5折

新年将至，一口鲜甜的水果，一顿热气腾腾的涮肉，都是跨年夜不可或缺的美味搭档。12月31日晚8点，京东生鲜新年购物季正式开启，甄选智利车厘子、印尼山竹、查干湖鱼、厄瓜多尔白虾等全球生鲜好物，带来满99元享8折、满199元低至6.5折的惊喜福利，一站式满足消费者新年囤

2026-01-01

以服务为底色，奥普智能科技交出一份2025年度口碑答卷

在市场消费进入理性周期的当下，“好产品”早已不再是唯一标准。是否稳定、是否省心、是否在关键时刻有人回应，正逐渐成为消费者判断品牌价值的重要依据。2025年，围绕“服务能力”“交付体验”与“消费者信任度”，作为行业领先的智能科技企业，奥普接连获得多项行业级

2026-01-01

技术革新护航出行安全 tudoo安心豆充电宝引领"安心登机"新时代

随着消费电子行业向高质量发展转型，移动电源作为高频出行必备品，其安全性能与航空适配性成为行业关注焦点。阿里虎鲸文娱旗下AI硬件品牌tudoo推出安心豆充电宝，创新搭载电芯全包裹隔离安全结构与双NTC智能温控系统，以硬核技术破解充电宝发热、鼓包等安全痛点，率先实

2026-01-01