华为芯片MLPerf：机器学习技术大评比第一次结果出炉，MLPerf新测试标准让各家秀强项

消息来源:baojiabao.com 作者: 发布时间：2024-05-24

报价宝综合消息华为芯片MLPerf：机器学习技术大评比第一次结果出炉，MLPerf新测试标准让各家秀强项

机器学习基准测试套件MLPerf于推出7个月后，根据第一轮由Nvidia、谷歌和英特尔提交的资料，发布了第一次的结果。MLPerf的结果测量了主要机器学习硬件平台的速度，包括Google的TPU、英特尔CPU和Nvidia GPU，同时结果也提供了诸如TensorFlow、PyTorch和MXNet等机器学习软件框架速度的了解。

MLPerf为一个新兴的基准测试套件，提供了衡量云端供应商和内部硬件平台的效能的方法，其训练几准由资料集和品质目标定义，而且同时还为每一个基准使用的特定模型提供了参照实作，虽然MLPerf v0.5包含7个基准测试，但实际上只有5个类别，分别是图像分类、物体侦测、翻译、推荐和增强学习。

测量基准是量测将模型训练到达目标品质所需要的时间，然后将MLPerf时间结果标准化，在单个Nvidia Pascal P100 GPU上执行的未最佳化的参照实作，官方提到，未来的MLPerf基准测试也将包括推理。 MLPerf量测基准分为两部分封闭与开放，封闭的比较主要测试机器学习硬件和框架，需要使用相同的模型以及Optimizer，而开放则可以使用任意的模型。在第一轮的比较上，各家都选择先在封闭基准测试较量。

Nvidia在部落格发布了自家测试结果，包括单节点测试以及规模测试，并且提到，他们目前先专注在封闭的基准测量进行比较，因为这样才是进行有意义的机器学习训练系统比较，开放量测目的是用于鼓励网络模型架构和其他算法方面的创新。

Nvidia提交了7项基准测试中的6项结果，Nvidia提到，之所以选择不提交增强学习测试，是因为测试基准是基于策略游戏Go的实作，而该游戏最初是在使用Tesla P100 GPU的服务器上开发，在目前的形式，其含有重要的CPU元件，因此规模的扩展受到了限制。最终Nvidia放弃了增强学习基准测试。

Google同样也在部落格发布了其在MLPerf上的结果，并宣称其平台最容易进行机器学习训练的扩展，并且以芯片相比，其TPU拥有19％的效能优势。Google提到，在多个MLPerf测试的竞争效能中，证明TPU（Tensor Processing Units）和TPU Pods是适合大规模训练机器学习模型的系统。

Google比较了自家1/64th TPU v3 Pod与Nvidia的DGX-2机器的绝对训练时间，其运行标准的图像分类网络ResNet-50，TPU v3 Pod共花了60分钟，而DGX-2则花了73.9分钟。DGX-2包含16个V100 GPU，而1/64th TPU v3 Pod拥有用于训练的16 TPU v3芯片与4个用于评估的TPU v2芯片。

2018-12-14 17:34:00