LinkedIn开源TonY专案,让使用者可在单节点或是大型Hadoop丛集上,基于YARN建置TensorFlow应用的解决方案,TonY其运作方式就像是在Hadoop中的MapReduce,执行Pig和Hive脚本的方式类似,提供TensorFlow任务第一层级的支援。TonY由三个主要元件组成,分别是客户端、ApplicationMaster以及TaskExecutor,主要提供四大特色GPU调度、精度资源请求、TensorBoard支援以及容错。
LinkedIn平台会员接近6亿人,随着深度学习技术的发展,LinkedIn的人工智能工程师,努力在众多像是摘要或是回复等功能中应用人工智能,而其中有许多使用案例,皆使用Google开发的深度学习框架TensorFlow建置。一开始LinkedIn内部TensorFlow用户都只在小型和非托管的裸机上执行应用,但随着发展,他们逐渐意识到必须要让TensorFlow连结并使用Hadoop大资料平台上的运算以及储存资源。LinkedIn的Hadoop丛集拥有数百PB的资料,很适合用于开发深度学习应用。
虽然TensorFlow支援分散式训练,但要编排TensorFlow必非一件简单的事,LinkedIn调查了市面上现存的解决方方案,但终究没能符合需求。有一个Apache Spark运算引擎TensorFlow的开源解决方案,能够在框架上执行一些LinkedIn内部深度学习应用程序,但其缺乏GPU调度和异构容器调度是最后不被采用的致命伤。而另一个TensorFlowOnYARN独立函式库则较接近LinkedIn的需求,但是其容错以及可用性较差,且该专案已经停止维护更新。
基于这些原因,LinkedIn只好开始动手开发自家基于Hadoop YARN的TensorFlow解决方案TonY,以便可以完全控制Hadoop丛集资源,TonY直接在YARN上运作,并以轻量相依执行,因此除了可以在YARN中使用堆叠较低阶的部分,也能使用TensorFlow中堆叠高阶的部分。
LinkedIn提到,TonY运作TensorFlow的方法,类似在Hadoop中MapReduce引擎执行Pig与Hive脚本,或是在Spark中以API执行Scala程式码,TonY透过处理资源沟通或是容器环境设定等任务,支援TensorFlow的工作。TonY主要有3个元件,客户端、ApplicationMaster和TaskExecutor。使用者向客户端提交TensorFlow模型训练程式码、参数以及Python虚拟环境,并由客户端设定ApplicationMaster将其交付给YARN丛集,ApplicationMaster会根据用户的资源要求,与YARN的资源管理器进行资源协商,当ApplicationMaster收到确定的资源分配,便会在分配的节点上创建TaskExecutors,由TaskExecutors启动用户的训练程式码并等待工作完成。
TonY除了可以完成基本在Hadoop上执行分散式TensorFlow的工作外,也实作了用来支援大规模训练的功能。TonY支援GPU调度,能够利用Hadoop的API向丛集请求GPU资源。另外,还支援高精度的资源请求,由于TonY能请求不同的实体作为单独的元件,因此用户可以针对每种实体类型请求不同的资源,也就是说,用户可以良好的控制应用程序使用的资源,同时也有助于丛集管理员避免浪费硬件资源。
TonY现在可以将应用程序追踪的URL重新导向TensorBoard上,让使用者方便透过TensorBoard理解、调校和最佳化TensorFlow应用程序。而TonY重要的特色之一便是容错,可以让深度学习训练更可靠。即便使用大量的机器,TensorFlow训练仍可能需要数小时甚至数天,但长时间运作的TensorFlow任务比短期的任务,更容易受到暂时性错误或抢占的问题影响。TensorFlow拥有容错API,可以将检查点储存成HDFS,还能从先前保存的检查点恢复继续训练。TonY则透过提供弹性分散式基础架构,来从节点故障中恢复,因此当Worker错误、或是ApplicationMaster失去回应等情况,TonY将会重新启动应用程序,并恢复到之前的检查点。
现在LinkedIn在GitHub上开源他们在Hadoop和TensorFlow上的努力,让其他使用者也能方便的建置分散式机器学习应用。
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09