ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

CPU,正在被AI时代抛弃?

时间:2024-07-11 17:10:24来源:互联网编辑:茹茹

在某三甲医院的门诊中,汇集了来自各地的病患,医生们正在以最专业的能力和最快的速度进行会诊。期间,医生与患者的对话可以通过语音识别技术被录入到病例系统中,随后大模型 AI 推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI 推理的应用不仅节省了时间,也保护了患者隐私;

在法院、律所等业务场景中,律师通过大模型对海量历史案例进行整理调查,并锁定出拟定法律文件中可能存在的漏洞;

……

以上场景中的大模型应用,几乎都有一个共同的特点——受行业属性限制,在应用大模型时,除了对算力的高要求,AI 训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时,为确保服务效率和隐私安全,他们一般需要将模型部署在本地,且非常看重硬件等基础设施层的稳定性和可靠性。一个中等参数或者轻量参数的模型,加上精调就可以满足他们的场景需求。

而在大模型技术落地过程中,上述需求其实不在少数,基于 CPU 的推理方案无疑是一种更具性价比的选择。不仅能够满足其业务需求,还能有效控制成本、保证系统的稳定性和数据的安全性。但这也就愈发让我们好奇,作为通用服务器,CPU 在 AI 时代可以发挥怎样的优势?其背后的技术原理又是什么?

1、AI 时代,CPU 是否已被被边缘化?

提起 AI 训练和 AI 推理,大家普遍会想到 GPU 更擅长处理大量并行任务,在执行计算密集型任务时表现地更出色,却忽视了 CPU 在这其中的价值。

AI 技术的不断演进——从深度神经网络(DNN)到 Transformer 大模型,对硬件的要求产生了显著变化。CPU 不仅没有被边缘化,反而持续升级以适应这些变化,并做出了重要改变。

AI 大模型也不是只有推理和训练的单一任务,还包括数据预处理、模型训练、推理和后处理等,整个过程中需要非常多软硬件及系统的配合。在 GPU 兴起并广泛应用于 AI 领域之前,CPU 就已经作为执行 AI 推理任务的主要硬件在被广泛使用。其作为通用处理器发挥着非常大的作用,整个系统的调度、任何负载的高效运行都离不开它的协同优化。

此外,CPU 的单核性能非常强大,可以处理复杂的计算任务,其核心数量也在不断增加,而且 CPU 的内存容量远大于 GPU 的显存容量,这些优势使得 CPU 能够有效运行生成式大模型任务。经过优化的大模型可以在 CPU 上高效执行,特别是当模型非常大,需要跨异构平台计算时,使用 CPU 反而能提供更快的速度和更高的效率。

而 AI 推理过程中两个重要阶段的需求,即在预填充阶段,需要高算力的矩阵乘法运算部件;在解码阶段,尤其是小批量请求时,需要更高的内存访问带宽。这些需求 CPU 都可以很好地满足。

以英特尔举例,从 2017 年第一代至强® 可扩展处理器开始就利用英特尔® AVX-512 技术的矢量运算能力进行 AI 加速上的尝试;再接着第二代至强® 中导入深度学习加速技术(DL Boost);第三代到第五代至强® 的演进中,从 BF16 的增添再到英特尔® AMX 的入驻,可以说英特尔一直在充分利用 CPU 资源加速 AI 的道路上深耕。

在英特尔® AMX 大幅提升矩阵计算能力外,第五代至强® 可扩展处理器还增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。在几个时钟的周期内,一条微指令就可以把一个 16×16 的矩阵计算一次性计算出来。至强® 可扩展处理器可支持 High Bandwidth Memory (HBM) 内存,和 DDR5 相比,其具有更多的访存通道和更长的读取位宽。虽然 HBM 的容量相对较小,但足以支撑大多数的大模型推理任务。

可以明确的是,AI 技术的演进还远未停止,当前以消耗大量算力为前提的模型结构也可能会发生改变,但 CPU 作为计算机系统的核心,其价值始终是难以被替代的。

同时,AI 应用的需求是多样化的,不同的应用场景需要不同的计算资源和优化策略。因此比起相互替代,CPU 和其他加速器之间的互补关系才是它们在 AI 市场中共同发展的长久之道。

2、与其算力焦虑,不如关注效价比

随着人工智能技术在各个领域的广泛应用,AI 推理成为了推动技术进步的关键因素。然而,随着通用大模型参数和 Token 数量不断增加,模型单次推理所需的算力也在持续增加,企业的算力焦虑扑面而来。与其关注无法短时间达到的算力规模,不如聚焦在“效价比”,即综合考量大模型训练和推理过程中所需软硬件的经济投入成本、使用效果和产品性能。

CPU 不仅是企业解决 AI 算力焦虑过程中的重要选项,更是企业追求“效价比”的优选。在大模型技术落地的“效价比”探索层面上,百度智能云和英特尔也不谋而合。

百度智能云千帆大模型平台(下文简称“千帆大模型平台”)作为一个面向开发者和企业的人工智能服务平台,提供了丰富的大模型,对大模型的推理及部署服务优化积攒了很多作为开发平台的经验,他们发现,CPU 的 AI 算力潜力将有助于提升 CPU 云服务器的资源利用率,能够满足用户快速部署 LLM 模型的需求,同时还发现了许多很适合 CPU 的使用场景:

●SFT 长尾模型:每个模型的调用相对稀疏,CPU 的灵活性和通用性得以充分发挥,能够轻松管理和调度这些模型,确保每个模型在需要时都能快速响应。

●小于 10b 的小参数规模大模型:由于模型规模相对较小,CPU 能够提供足够的计算能力,同时保持较低的能耗和成本。

●对首 Token 时延不敏感,更注重整体吞吐的离线批量推理场景:这类场景通常要求系统能够高效处理大量的数据,而 CPU 的强大计算能力和高吞吐量特性可以很好地满足要求,能够确保推理任务的快速完成。

英特尔的测试数据也验证了千帆大模型平台团队的发现,其通过测试证明,单台双路 CPU 服务器完全可以轻松胜任几 B 到几十 B 参数的大模型推理任务,Token 生成延时完全能够达到数十毫秒的业务需求指标,而针对更大规模参数的模型,例如常用的 Llama 2-70B,CPU 同样可以通过分布式推理方式来支持。此外,批量处理任务在 CPU 集群的闲时进行,忙时可以处理其他任务,而无需维护代价高昂的 GPU 集群,这将极大节省企业的经济成本。

也正是出于在“CPU 上跑 AI”的共识,双方展开了业务上的深度合作。百度智能云千帆大模型平台采⽤基于英特尔® AMX 加速器和大模型推理软件解决方案 xFasterTransformer (xFT),进⼀步加速英特尔® 至强® 可扩展处理器的 LLM 推理速度。

3、将 CPU 在 AI 方面的潜能发挥到极致

为了充分发挥 CPU 在 AI 推理方面的极限潜能,需要从两个方面进行技术探索——硬件层面的升级和软件层面的优化适配。

千帆大模型平台采用 xFT,主要进行了以下三方面的优化:

系统层面:利用英特尔® AMX/AVX512 等硬件特性,高效快速地完成矩阵 / 向量计算;优化实现针对超长上下文和输出的 Flash Attention/Flash Decoding 等核心算子,降低数据类型转换和数据重排布等开销;统一内存分配管理,降低推理任务的内存占用。

算法层面:在精度满足任务需求的条件下,提供多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降低访存数据量的同时,充分发挥出英特尔® AMX 等加速部件对 BF16/INT8 等低精度数据计算的计算能力。

多节点并行:支持张量并行(Tensor Parallelism)等对模型权重进行切分的并行推理部署。使用异构集合通信的方式提高通信效率,进一步降低 70b 规模及以上 LLM 推理时延,提高较大批处理请求的吞吐。

第五代至强® 可扩展处理器能在 AI 推理上能够取得如此亮眼的效果,同样离不开软件层面的优化适配。为了解决 CPU 推理性能问题,这就不得不提 xFT 开源推理框架了。

xFT 底层适用英特尔 AI 软件栈,包括 oneDNN、oneMKL、IG、oneCCL 等高性能库。用户可以调用和组装这些高性能库,形成大模型推理的关键算子,并简单组合算子来支持 Llama、文心一言等大模型。同时,xFT 最上层提供 C++ 和 Python 两套便利接口,很容易集成到现有框架或服务后端。

xFT 采用了多种优化策略来提升推理效率,其中包括张量并行和流水线并行技术,这两种技术能够显著提高并行处理的能力。通过高性能融合算子和先进的量化技术,其在保持精度的同时提高推理速度。此外,通过低精度量化和稀疏化技术,xFT 有效地降低了对内存带宽的需求,在推理速度和准确度之间取得平衡,支持多种数据类型来实现模型推理和部署,包括单一精度和混合精度,可充分利用 CPU 的计算资源和带宽资源来提高 LLM 的推理速度。

另外xFT 通过“算子融合”、“最小化数据拷贝”、“重排操作”和“内存重复利用”等手段来进一步优化 LLM 的实现,这些优化策略能够最大限度地减少内存占用、提高缓存命中率并提升整体性能。通过仔细分析 LLM 的工作流程并减少不必要的计算开销,该引擎进一步提高了数据重用度和计算效率,特别是在处理 Attention 机制时,针对不同长度的序列采取了不同的优化算法来确保最高的访存效率。

目前,英特尔的大模型加速方案 xFT 已经成功集成到千帆大模型平台中,这项合作使得在千帆大模型平台上部署的多个开源大模型能够在英特尔至强® 可扩展处理器上获得最优的推理性能:

●在线服务部署:用户可以利用千帆大模型平台的 CPU 资源在线部署多个开源大模型服务,这些服务不仅为客户应用提供了强大的大模型支持,还能够用于千帆大模型平台 prompt 优化工程等相关任务场景。

●高性能推理:借助英特尔® 至强® 可扩展处理器和 xFT 推理解决方案,千帆大模型平台能够实现大幅提升的推理性能。这包括降低推理时延,提高服务响应速度,以及增强模型的整体吞吐能力。

●定制化部署:千帆大模型平台提供了灵活的部署选项,允许用户根据具体业务需求选择最适合的硬件资源配置,从而优化大模型在实际应用中的表现和效果。

4、写在最后

对于千帆大模型平台来说,英特尔帮助其解决了客户在大模型应用过程中对计算资源的需求,进一步提升了大模型的性能和效率,让用户以更低的成本获取高质量的大模型服务。

大模型生态要想持续不断地往前演进,无疑要靠一个个实打实的小业务落地把整个生态构建起来,英特尔联合千帆大模型平台正是在帮助企业以最少的成本落地大模型应用,让他们在探索大模型应用时找到了更具效价比的选项。

未来,双方计划在更高性能的至强® 产品支持、软件优化、更多模型支持以及重点客户联合支持等方面展开深入合作。旨在提升大模型运行效率和性能,为千帆大模型平台提供更完善的软件支持,确保用户能及时利用最新的技术成果,从而加速大模型生态持续向前。

更多关于至强® 可扩展处理器为千帆大模型平台推理加速的信息,请点击英特尔官网查阅。

更多热门内容
2025最强折叠手机是哪一款?这款轻薄旗舰遥遥领先
如果说2024年是折叠屏技术的成熟年,那2025就是折叠屏旗舰全面比拼“硬实力”的时代。而在众多新品中,哪一款才配得上“2025最强折叠手机”的称号?答案已经非常明确:荣耀Magic V5凭借全球最薄的机身设计、超大电池续航以及全面均衡的性能表现,稳居行业之巅。2025最强

2025-07-21

三伏克星,智慧恒护!A.O.史密斯“数字真五恒系统”打造清凉无敏堡垒
告别闷热黏腻,远离空调病!三伏天的热浪滚滚而来,高温高湿不仅让人汗流浃背、心烦气躁,更易诱发空调病,甚至加重尘螨、霉菌滋生带来的过敏困扰。紧闭门窗躲清凉?空气沉闷、病菌滋生反而更伤身。如何在酷暑中,为家人筑起一道清凉、洁净、恒久舒适的暑期防线?A.O.史密

2025-07-21

维谛Vertiv收购定制化机柜解决方案制造商
维谛宣布收购定制化机柜解决方案制造商,此次收购将巩固维谛在高密一体化基础设施解决方案的领导地位。作为全球领先的关键数字基础设施及连续性解决方案提供商,维谛(Vertiv,NYSE:VRT)于2025年7月17日宣布,其已达成协议以2亿美元收购Great Lakes Data RacksCabinets

2025-07-21

迎14周年,春雨医生开启“线上直播感恩月”
2025年7月19日,中国移动互联网医疗的开创者春雨医生,迎来了14周岁的生日。14岁的春雨医生,已近成年。巧合的是:春雨医生在诞生之初,恰好迎来了移动互联网时代的发展,并乘势开创了在线问诊、空中诊所、开放平台等如今移动医疗行业的“标配”服务;而14年后的今年,随

2025-07-21

福昕软件"数智枫桥·数治北京"解决方案获评全国智慧检务创新案例
近日,由法制日报社主办的2025政法智能化建设案例及论文征集宣传活动评选结果揭晓。本次共评出智慧治理、智慧法院、智慧检务、智慧警务、智慧司法典型案例各10个、创新案例各20个、创新论文各30篇。福昕软件联合北京市人民检察院研发的“数智枫桥·数治北京”解决方案,

2025-07-21

从700万到800万台仅2个月,九号智能两轮电动车为何能领跑行业?
九号公司最近真的是喜事连连,最近九号公司生产的第800万台九号电动两轮车正式发车,而距离700万台发车仅仅过去了2个月的时间,毫无疑问九号电动车的增长势能领跑整个行业。在此期间,九号公司也正参展第三届链博会,并在“数字科技链条”展区展出多款重磅新品及核心零

2025-07-21

强势通过欧盟能效测试 三星Galaxy Z Flip7|Z Flip7 FE耐用性太出色
随着智能手机市场趋于饱和,消费者的换机周期越来越长。在TechInsights发布的调研报告显示,消费者的换机周期已经从此前的18个月增至51个月。因此,消费者在选择机型时,更加注重其使用寿命。近日,据外媒报道,三星全新推出的Galaxy Z Flip7和Galaxy Z Flip7 FE在续航

2025-07-21

TCL科技以绿色产业链筑牢化学品安全防线,强化绿色制造与合规运营
化学品安全是工业生产中保障人类健康、生态环境与产业可持续发展的重要环节。为确保生产运营合规稳定,TCL科技旗下生产型子公司设立专责部门,负责化学品全流程风险识别与管控,严格执行有害物质管理要求,确保产品在生产、运输、使用、处置等各环节中的安全性。全流程

2025-07-21

扬帆起航,争做行业“小龙” ——2025“直通乌镇”全球互联网大赛火热报名中
自2014年世界互联网大会乌镇峰会启幕以来,这一国际盛会已走入新的十年。“直通乌镇”全球互联网大赛作为乌镇峰会的亮点活动,历经六年深耕,已成为全球互联网领域的重要赛事之一。2025“直通乌镇”全球互联网大赛已全面开放报名,诚邀全球互联网领域项目踊跃参赛,在全

2025-07-21

从尖端技术到无障碍关怀:vivo携多项创新成果亮相联通合作伙伴大会
2025年7月18日,中国联通合作伙伴大会于上海盛大启幕,本次大会以“向实同行 共融新生态”为主题,汇聚全球伙伴共谋智能时代新机遇。vivo作为中国联通核心战略合作伙伴及创新领军企业,以“智领未来,共融新生态”为主题,全面展示其在6G技术、AI个人化智能、无障碍科技

2025-07-21