图/Nvidia
企业级Hadoop大数据软件商Cloudera近期在自家的数据平台中(Cloudera Data Platform,CDP),整合了可在GPU上加速Spark的开源函式库RAPIDS。透过这个新功能,原先在CDP平台上,大多以CPU来执行的Spark工作负载,比如资料分析的撷取、转换和载入(ETL)作业,就可以搭配GPU来执行,Cloudera宣称,可以提升5倍全端(full stack)执行速度的成效。
RAPIDS是Nvidia开源释出的CUDA加速函式库,可以用来在GPU上执行端对端资料科学和分析工作流程。去年开始也能支援Apache Spark社群释出的Spark 3.0,以Nvidia CUDA和开源框架UCX为基础,来加速Spark SQL、DataFrame及Spark shuffle等功能,让Spark工作能利用GPU平行处理和高带宽内存传输的能力,来执行运算,且不需要改写程式码。
Nvidia也在自家开发者部落格上介绍,在开发ML的工作流程中,资料科学家大约有80%的时间花在资料预处理上,包括要先了解资料集,反复进行资料清整、撷取特征等,这个过程通称为ETL,由于Spark是资料预处理和特征工程的常用工具,也常被用于这个环节。不过,因Spark过去的版本不支援GPU运算,所以资料科学家和工程师大多在CPU上执行ETL,再将资料传送至GPU进行模型训练。但随着资料量增加后,这个流程也面临一些挑战。
Nvidia资料科学产品部资深总监Scott McClellan指出,这对企业带来的挑战,一是在资料量不断成长、迭代训练的过程中,会花费大量的时间;二是要建立大规模CPU基础架构,需花费大量金钱;三是在执行大规模资料处理的过程中,需要不断重构程式码、交接执行运算,会增加从资料工程到模型训练每一次循环的时间成本。为此,Nvidia开源了RAPIDS,试图透过GPU来加速资料处理的执行效率。
Cloudera将RAPIDS整合到自家数据平台中
去年,Nvidia与Cloudera展开合作,Cloudera更在今年夏天,将RAPIDS整合到自家的CDP产品中,正式在CDP中推出以GPU加速Spark的功能。Cloudera机器学习部门副总裁Sushil Thomas表示,将RAPIDS整合到CDP后,使用者执行Spark工作时,完全不需要修改程式码,Spark核心引擎会在侦测到GPU运算资源后,自动根据工作负载的任务类型,比如是属于列式储存(Row-oriented)或直式储存(Column-oriented)的资料模型,在GPU或CPU上排程执行特定工作。也就是说,Spark核心引擎会自动完成在CPU与GPU之间的运算转换。
Cloudera数据平台结合RAPIDS套件后的架构示意图。
Sushil Thomas更指出,采用GPU来执行Spark之后,可以在同样时间内,增加资料处理迭代循环的次数,来提升模型训练的准确度,更能将全端执行速度提升5倍。
Nvidia也提出一份数据,来比较在CDP上以CPU或GPU来执行数据分析的成效。若分别以现代4节点的CPU丛集,以及相同配置的CPU搭上Nvidia A30 GPU来进行运算,后者的执行速度可达前者的5倍,不过搭配GPU的成本会比单纯使用CPU增加30~40%。
目前,这项功能仅限于CDP的私有云产品,Sushil Thomas指出,对于公有云的支援会在近期上线。这项功能主要瞄准采用私有云的大型客户,包括金融、医疗这类具有大量资料工程与资料科学任务需求的产业,目前也已经用于美国国税局(IRS),能在超过300TB的庞大数据库中,找出有助于识别身份盗用或其它诈欺行为的模式。
Cloudera是提供Apache Hadoop商用版本的主要厂商之一,目前有超过2,000家客户,主要产品是数据平台CDP,提供Hadoop、Spark等大数据分析服务。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09