第四代英特尔至强可扩展处理器和 Habana Gaudi2 在深度学习训练中展现领先的 AI 性能

消息来源:baojiabao.com 作者: 发布时间：2026-05-28

报价宝综合消息第四代英特尔至强可扩展处理器和 Habana Gaudi2 在深度学习训练中展现领先的 AI 性能

在 MLCommons 近日发布的 AI 性能行业基准测试结果中，代号为 Sapphire Rapids 的第四代英特尔 ^® 至强 ^® 可扩展处理器和专用于深度学习 AI 训练的 Habana^® Gaudi^®2 加速器展现了卓越的训练表现。

英特尔执行副总裁兼数据中心与人工智能事业部总经理 Sandra Rivera 表示："自去年 6 月提交了领先的 MLPerf 行业测试结果以来，我们团队不断取得新的进步，这让我感到非常自豪。第四代英特尔至强可扩展处理器和 Gaudi2 AI 加速器支持广泛的 AI 功能，为有深度学习训练和大规模工作负载处理需求的客户提供业界领先的性能。"

在众多数据中心应用场景中，基于至强处理器的服务器平台可用于运行一系列机器学习（ML）和数据分析的复杂管道，而深度学习（DL）正是其中的一部分。同时，这些服务器平台亦可用于运行其他应用程序，并能够适应随时间变化的多种工作负载。在这些使用场景中，至强可扩展处理器能够极大程度地降低总体拥有成本（TCO），提高全年利用率。

第四代英特尔至强可扩展处理器内置全新 AI 加速器 -- 英特尔 ^® 高级矩阵扩展（AMX），旨在帮助用户通过扩展通用至强服务器平台，覆盖包括训练和微调在内的更多深度学习使用场景。AMX 是一个专用的矩阵乘法引擎，内置于第四代至强可扩展处理器的每个核心。该 AI 引擎已经过优化，基于行业标准框架，可提供相较于上一代深度学习训练模型高达 6 倍的性能。

而在服务器或服务器集群主要用于深度学习训练和推理计算的场景中，Habana Gaudi2 则是理想的加速器，针对这些专用场景，它旨在提供优异的深度学习性能并降低总体拥有成本。

关于至强处理器的测试结果：英特尔首先提交了涵盖一系列不同工作负载的第四代英特尔至强可扩展处理器产品线的 MLPerf v2.1 行业测试结果。作为唯一提交该测试结果的处理器，Sapphire Rapids 再次被证实其优异的 AI 性能，使客户能够随时随地使用共享基础设施进行 AI 训练。内置英特尔 AMX 的第四代至强可扩展处理器在多个行业标准框架中为用户提供即时可用的性能，并集成了端到端的数据科学工具，以及来自生态伙伴广泛的智能解决方案，开发者仅需使用 TensorFlow 和 PyTorch 框架的最新版本，即可充分释放其性能。现阶段，英特尔至强可扩展处理器已经可以运行并处理全部 AI 工作负载。

测试结果显示，第四代英特尔至强可扩展处理器正通过扩大通用 CPU 在 AI 训练方面的覆盖范围，让客户能够充分利用已经部署在商业应用中的至强处理器完成更多工作，尤其是用于中小型模型的训练或微调，即迁移学习。DLRM 的结果便很好地论证了 Sapphire Rapids 能够在不到 30 分钟（26.73）的时间内仅用四个服务器节点即可完成模型训练。即使是面对大中型模型，第四代至强处理器亦可分别在 50 分钟（47.26）和 90 分钟（89.01）内成功训练 BERT 和 ResNet-50 模型。开发者可在一杯咖啡的时间内便完成小型深度学习模型的训练，在一顿午餐的时间内训练中型模型，并同时利用这些连接到数据存储系统的相同服务器，在下午进行诸如经典机器学习的其他分析。这也意味着企业能够将诸如 Gaudi2 的深度学习处理器预留给更大、对性能要求更高的模型。

关于 Habana Gaudi2 的测试结果：Habana 今年五月发布了用于深度学习训练的第二代 Gaudi 处理器 --Gaudi2，在 MLPerf v2.0 训练 10 天后汇总的成绩中表现出了领先的测试结果。Gaudi2 采用 7 纳米制程工艺制造，拥有 24 个 Tensor 处理器核心、片内封装容量达 96GB HBM2e 和 24 个 100GB RoCE 以太网端口。与英伟达的 A100 相比，Gaudi2 在这项基准测试中再次展现了领先的 8 卡服务器性能。

Gaudi2 在 TensorFlow 中训练 BERT 和 ResNet-50 的时间缩短了 10%。而 Gaudi2 的 PyTorch 结果则显示，与 5 月的 Gaudi1 结果相比，其 BERT 和 ResNet-50 的训练时间分别缩短了 4% 和 6%。这两组结果均在封闭和可用类别中提交。

这些优异表现突显了 Gaudi2 专用深度学习架构的独特性、Gaudi2 软件的日益成熟以及 Habana^® SynapseAI^® 软件堆栈的扩展优势。值得注意的是，该软件堆栈针对深度学习模型开发和部署进行了优化。

与 5 月的测试结果一致，Gaudi2 在 BERT 和 ResNet-50 模型训练方面始终优于英伟达 A100，进一步证明了该测试结果的有效性。英伟达 H100 的 ResNet-50 训练速度仅比 Gaudi2 高 11%，而尽管 H100 在 BERT 方面比 Gaudi2 快 59%，但英伟达报告的 BERT 训练时间为 FP8 数据类型，Gaudi2 的训练时间则为经过验证的标准 BF16 数据类型（在 Gaudi2 的软件计划中启用了 FP8）。因此，与 A100 和 H100 相比，Gaudi2 的性价比更高。

未来，英特尔和 Habana 团队非常期待再次提交的英特尔 AI 产品组合解决方案的 MLPerf 测试结果。

2022-12-21 18:34:21