APP下载

华为芯片MLPerf:机器学习技术大评比第一次结果出炉,MLPerf新测试标准让各家秀强项

消息来源:baojiabao.com 作者: 发布时间:2024-05-24

报价宝综合消息华为芯片MLPerf:机器学习技术大评比第一次结果出炉,MLPerf新测试标准让各家秀强项

机器学习基准测试套件MLPerf于推出7个月后,根据第一轮由Nvidia、谷歌和英特尔提交的资料,发布了第一次的结果。MLPerf的结果测量了主要机器学习硬件平台的速度,包括Google的TPU、英特尔CPU和Nvidia GPU,同时结果也提供了诸如TensorFlow、PyTorch和MXNet等机器学习软件框架速度的了解。

MLPerf为一个新兴的基准测试套件,提供了衡量云端供应商和内部硬件平台的效能的方法,其训练几准由资料集和品质目标定义,而且同时还为每一个基准使用的特定模型提供了参照实作,虽然MLPerf v0.5包含7个基准测试,但实际上只有5个类别,分别是图像分类、物体侦测、翻译、推荐和增强学习。

测量基准是量测将模型训练到达目标品质所需要的时间,然后将MLPerf时间结果标准化,在单个Nvidia Pascal P100 GPU上执行的未最佳化的参照实作,官方提到,未来的MLPerf基准测试也将包括推理。 MLPerf量测基准分为两部分封闭与开放,封闭的比较主要测试机器学习硬件和框架,需要使用相同的模型以及Optimizer,而开放则可以使用任意的模型。在第一轮的比较上,各家都选择先在封闭基准测试较量。

Nvidia在部落格发布了自家测试结果,包括单节点测试以及规模测试,并且提到,他们目前先专注在封闭的基准测量进行比较,因为这样才是进行有意义的机器学习训练系统比较,开放量测目的是用于鼓励网络模型架构和其他算法方面的创新。

Nvidia提交了7项基准测试中的6项结果,Nvidia提到,之所以选择不提交增强学习测试,是因为测试基准是基于策略游戏Go的实作,而该游戏最初是在使用Tesla P100 GPU的服务器上开发,在目前的形式,其含有重要的CPU元件,因此规模的扩展受到了限制。最终Nvidia放弃了增强学习基准测试。

Google同样也在部落格发布了其在MLPerf上的结果,并宣称其平台最容易进行机器学习训练的扩展,并且以芯片相比,其TPU拥有19%的效能优势。Google提到,在多个MLPerf测试的竞争效能中,证明TPU(Tensor Processing Units)和TPU Pods是适合大规模训练机器学习模型的系统。

Google比较了自家1/64th TPU v3 Pod与Nvidia的DGX-2机器的绝对训练时间,其运行标准的图像分类网络ResNet-50,TPU v3 Pod共花了60分钟,而DGX-2则花了73.9分钟。DGX-2包含16个V100 GPU,而1/64th TPU v3 Pod拥有用于训练的16 TPU v3芯片与4个用于评估的TPU v2芯片。

2018-12-14 17:34:00

相关文章