Cloudera数据平台Spark工作开始支援GPU运算，让ML资料前处理提高5倍执行效率最新消息

Cloudera数据平台Spark工作开始支援GPU运算，让ML资料前处理提高5倍执行效率

消息来源:baojiabao.com 作者: 发布时间：2026-05-11

报价宝综合消息Cloudera数据平台Spark工作开始支援GPU运算，让ML资料前处理提高5倍执行效率

Nvidia指出，若分别以现代4节点的CPU丛集，以及相同配置的CPU搭上Nvidia A30 GPU，来支援Cloudera数据平台的运算，后者的执行速度可达前者的5倍，虽然搭配GPU的成本会比单纯使用CPU增加30～40%。

图片来源:

图/Nvidia

企业级Hadoop大数据软件商Cloudera近期在自家的数据平台中（Cloudera Data Platform，CDP），整合了可在GPU上加速Spark的开源函式库RAPIDS。透过这个新功能，原先在CDP平台上，大多以CPU来执行的Spark工作负载，比如资料分析的撷取、转换和载入（ETL）作业，就可以搭配GPU来执行，Cloudera宣称，可以提升5倍全端（full stack）执行速度的成效。

RAPIDS是Nvidia开源释出的CUDA加速函式库，可以用来在GPU上执行端对端资料科学和分析工作流程。去年开始也能支援Apache Spark社群释出的Spark 3.0，以Nvidia CUDA和开源框架UCX为基础，来加速Spark SQL、DataFrame及Spark shuffle等功能，让Spark工作能利用GPU平行处理和高带宽内存传输的能力，来执行运算，且不需要改写程式码。

Nvidia也在自家开发者部落格上介绍，在开发ML的工作流程中，资料科学家大约有80%的时间花在资料预处理上，包括要先了解资料集，反复进行资料清整、撷取特征等，这个过程通称为ETL，由于Spark是资料预处理和特征工程的常用工具，也常被用于这个环节。不过，因Spark过去的版本不支援GPU运算，所以资料科学家和工程师大多在CPU上执行ETL，再将资料传送至GPU进行模型训练。但随着资料量增加后，这个流程也面临一些挑战。

Nvidia资料科学产品部资深总监Scott McClellan指出，这对企业带来的挑战，一是在资料量不断成长、迭代训练的过程中，会花费大量的时间；二是要建立大规模CPU基础架构，需花费大量金钱；三是在执行大规模资料处理的过程中，需要不断重构程式码、交接执行运算，会增加从资料工程到模型训练每一次循环的时间成本。为此，Nvidia开源了RAPIDS，试图透过GPU来加速资料处理的执行效率。

Cloudera将RAPIDS整合到自家数据平台中

去年，Nvidia与Cloudera展开合作，Cloudera更在今年夏天，将RAPIDS整合到自家的CDP产品中，正式在CDP中推出以GPU加速Spark的功能。Cloudera机器学习部门副总裁Sushil Thomas表示，将RAPIDS整合到CDP后，使用者执行Spark工作时，完全不需要修改程式码，Spark核心引擎会在侦测到GPU运算资源后，自动根据工作负载的任务类型，比如是属于列式储存（Row-oriented）或直式储存（Column-oriented）的资料模型，在GPU或CPU上排程执行特定工作。也就是说，Spark核心引擎会自动完成在CPU与GPU之间的运算转换。

Cloudera数据平台结合RAPIDS套件后的架构示意图。

Sushil Thomas更指出，采用GPU来执行Spark之后，可以在同样时间内，增加资料处理迭代循环的次数，来提升模型训练的准确度，更能将全端执行速度提升5倍。

Nvidia也提出一份数据，来比较在CDP上以CPU或GPU来执行数据分析的成效。若分别以现代4节点的CPU丛集，以及相同配置的CPU搭上Nvidia A30 GPU来进行运算，后者的执行速度可达前者的5倍，不过搭配GPU的成本会比单纯使用CPU增加30～40%。

目前，这项功能仅限于CDP的私有云产品，Sushil Thomas指出，对于公有云的支援会在近期上线。这项功能主要瞄准采用私有云的大型客户，包括金融、医疗这类具有大量资料工程与资料科学任务需求的产业，目前也已经用于美国国税局（IRS），能在超过300TB的庞大数据库中，找出有助于识别身份盗用或其它诈欺行为的模式。

Cloudera是提供Apache Hadoop商用版本的主要厂商之一，目前有超过2,000家客户，主要产品是数据平台CDP，提供Hadoop、Spark等大数据分析服务。

2021-08-10 11:46:00