APP下载

运营商大规模资料丛集治理实践指南_问题

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息运营商大规模资料丛集治理实践指南_问题

Q1:军哥,你们运营商行业的大规模丛集,都有啥特点啊?

A:我们丛集主要是承载B域、信令和互联网日志等去标识化资料,简单的说,有三个特点:

Q2:好吧,听起来,要搞定这样的丛集,有难度呀!那何时要关注丛集的治理呢?

A:好问题!一般来说,当资料质量问题、资料交付及时性、资料安全问题需要耗费极高的应对成本,或者说,当你经常会碰到以下类似的问题时,就该考虑做系统化的丛集治理工作了。

Q3:看起来,丛集治理好像需要做很多配套的工作,实际上会有多大的产出效果呢?

A:说出来,你可能不太信,就拿针对某丛集治理的效果为例:

一、丛集治理的定位

Q4:我以前听说过资料治理,你这里说大规模资料丛集的治理,有什么具体差异吗?

A:好问题!不过要搞清楚这块,得先了解一下我们资料资产管理体系建设的实施路径——主要分三个子工程,同步开展实施推进:

工程一

搭建核心业务资料治理框架,包括基础平台的建设、治理规范的制定,元资料管理、资料血缘和资料质量工具开发和应用实践,构建上层资料产品体系和资料能力开放平台,让资料多用活用,形成符合公司业务和组织协作特点的治理文化。

工程二

实现全域资料计算丛集的深度治理,完成全域资料治理元资料的自动化采集、储存和分析,构建资料能力开放平台多租户专项治理机制,沉淀资料治理中台能力,基于大资料丛集底层核心元件(如YARN、HDFS)的深入洞察,孵化出资料丛集治理的应用。

工程三

完善治理机制体制建设,构建资料资产管理体系,并利用该系统的运营逐步重塑优化业务流程,实现可支撑全业务流程的成本评估机制,让资料价值持续攀升。

回到你刚才的提问,资料治理基本上可以理解为工程一的核心目标;大规模丛集的治理对应工程二,它需要长期支撑工程一的具体建设任务,并为资料资产管理体系的运营夯实基础。

二、丛集治理的背景

Q5:你刚才说的好像很有道理,但是我还是不太明白,为何不是在资料治理工程中扩充套件一个子任务去做,而是要另起炉灶,搞一个新的大工程来做资料丛集的专项治理?

A:好问题!恭喜你!你快要触控到资料丛集治理问题的核心了。我们不妨再捋一下资料丛集治理的背景,主要是遇到的历史部分丛集无序建设的种种问题:

这些问题可进一步分为几类,简单分析完你就自然明白了:

三、丛集治理的目标

Q6:听你这么说,针对大规模资料丛集的治理工程还是很有必要的!

A:是的,“大规模”带来的问题,肯定不止上面这几类。

实际上会远超你的想象,传统的资料治理工具(如元资料、资料质量、资料血缘分析)可能就不灵了,必须要根据丛集规模、资料仓库新型技术方案选型以及业务流程进行重构,才可能得到预期的治理效果。

再强调一句,大规模资料是长在丛集之上,而丛集里面的很多关键元件不是传统的商业关系型数据库,而是开源社群的通用版本,其可维护性、稳定性和功能局限性等方面都存在较大的挑战,效能这块也需要深入到源代码层进行重构调优处理,你得做好准备。

所以,我们做大规模丛集治理的核心目标聚焦在:

1、充分保障丛集资源算力

毫无疑问,在大规模丛集计算环境,保障丛集资源算力是首要任务。

如果这一块稍有闪失,资料采集、资料储存、资料加工、资料建模分析、资料测试、资料稽核、资料迁移、资料同步、资料计算、资料作业重跑等流程可能都要崩溃。

因为这些环节背后都涉及到大量的资料作业任务排程执行,其成功与否取决于分散式系统元件整体的通讯、资源的申请、以及任务例项的执行结果。

因此除了足够的物理资源池之外,还需要特别保障丛集Master程式类服务的效能表现和稳定性。

2、有效驱动平台资料治理

开展丛集治理的工作,最重要的目标就是有效支撑资料治理工程的建设。

资料治理是一个系统工程,通常是按照类似下面的框架做:

其关键是组织、流程、平台工具、评价考核机制的全面协同。

首先是从资料采集加工流程中梳理出资料治理体系最需关注的各环节建设内容和目标:

然后构建元资料管理、资料质量稽核、资料血缘分析、资料地图等工具集:

如果你的资料丛集规模不大,比如百节点以内,有非常完备的治理组织架构,按照传统的工具流程和方法论去做资料治理,一般问题不大。

但是,如果是在运营商大规模丛集环境,随着业务的发展,遇到新的问题时,光靠一些老套路是行不通的,或者说整体治理成本是极大的。

在这样的大规模丛集环境下,资料治理的本质其实就是:解决人与人的对抗、人与机器的对抗、人与工具的对抗、人与数的对抗问题。

实践经验发现,只是靠堆人的方式,或者只在资料治理文化层面强调人机数的全面协同,要做好大规模丛集的资料治理是不太现实的。

更务实的做法是基于公司业务和组织架构特点,不断驱动和协同优化,还要借助大资料技术手段,精益推动资料丛集侧的持续治理,形成资料治理+丛集治理+资产管理的整体协同效应。

简而言之,丛集治理支撑资料治理,资料治理驱动资料资产管理。

资料中心的资产包括资料、程式、流程、服务及资源5大类,通过丛集治理和资产的有效管理,对于促进资料价值持续发现、资料能力持续开放、资料的持续变现有巨大的促进作用,从而逐步推动资料治理体系向资产管理体系演进。

四、丛集治理的实施路径

Q7:军哥,说了半天,你好像还没有告诉我,到底如何开展丛集的治理工作呀?

A:不急,只要你明白了丛集治理的定位、背景、目标,其实搞大规模资料丛集的治理工作就没有那么难,按照以下8个步骤做就行:

下文中将对以上八个步骤进行具体解读。

五、丛集治理的案例实践

第一步:理清大规模资料丛集的现状和治理需求点

第二步:明确治理的组织架构、方法论、技术框架

1)治理组织架构

2)治理方法论

这里的核心就是建立自下而上、自发协同、精益推进式的资料治理文化。

3)治理技术框架

Q8:这个技术框架理解起来太抽象了,要解决的问题可以再解释一下吗?

A:其实没有那么难以理解,主要是公司业务高速发展过程中资料业务需求越来越复杂,所需算力也越来越大,进一步导致某些丛集的规模越来越大,承载的产品也越来越多,部分丛集面临资源负载过高、资源抢占严重、RPC请求负载过高等问题。

储存系统也面临空档案、垃圾档案、小档案过多,平均档案大小过小、档案数持续增长等问题,储存系统稳定性面临很大隐患。

作业又面临执行耗时过长、耗资源大、资料倾斜严重等问题,直接导致资料加工异常率过高、资料具备时间有延迟风险、产品交付面临风险。

基于以上面临的各种困境构建巡山大资料丛集治理平台,以资源、储存、作业三大角度,从资源画像、作业画像、储存画像、冗余计算挖掘、资料血缘画像、RPC画像六大维度,几十个小维度进行丛集交叉治理并协同各相关组织进行全域治理,使丛集全面向良性健康方向发展。

第三步:构建针对大资料丛集的智慧运维技术平台

Q9:军哥,搞大规模资料丛集的治理怎么扯到智慧运维平台上面去了呢?必须要建这个平台吗?

A:好问题!前面说过,丛集治理的首要目标就是充分保证丛集资源算力,实际上就是要保障丛集关键服务执行和资料作业资源排程的稳定性,以及相对不错的效能表现。

这里的稳定性和效能就是IT运维领域的事情,从业界发展来看,主要经历了四个阶段:

一般来说,企业IT建设的头几年,会逐步上线CMDB、ITSM、Job自动化作业、SOP等子系统,然后开始考虑DevOps、容器云、AIOps等方向的建设。

对于大规模资料丛集来说,我们必须先构建好这个基础的智慧运维技术平台。

1)总体架构

2)资料生产检测视觉化大屏

具体实施过程中,前期需重点关注平台优化和跨部门业务协同子系统的运营成效。

第四步:实现YARN作业&HDFS画像、小档案洞察

1)联合治理

以底层技术为核心,从资源、储存、计算三大维度进行联合治理,深度监控各业务资源伫列使用状态、储存系统档案分布、作业执行事件和配置,建立视觉化工具体系,驱动日常优化和运营。

①从资源角度:

对线上丛集的资源伫列状态进行秒级资料采集,包含伫列最大容量、伫列配置容量、伫列已使用容量多维度的资料采集,实时监控不同业务线、不同周期资源使用状态,以达到动态调整资源规划、加工周期保障产线加工正常进行。

②从计算角度:

通过采集全域作业资讯,解析出数十项核心指标和千个作业配置,计算出作业耗时TOP、耗内存TOP、耗CPU TOP、资料倾斜TOP、高IO TOP以及从不同业务、不同周期、不同账户洞察待优化作业,针对不同异常型别给出相应优化方案,降低作业资源负载、降低输出档案数、提升输出档案大小,从而减低整个丛集资源负载和提升储存系统稳定性。

③从储存角度:

采集分散式储存系统的元资料映象和元资料操作日志,洞察分散式储存系统档案数趋势、档案分布统计、平均档案大小趋势统计、空档案分布、垃圾档案分布。

2)技术实现方案

第五步:实现NN RPC画像、关键Master服务预警

大资料丛集有很多关键服务,这些服务的健康异常状态,需要重点监控,且尽可能做到实时处理效果,这样在故障发生后可以组合多种监控和日志资讯,从多个维度交叉定位问题,提升解决问题效率。

1)技术实现方案

第六步:实现冗余计算挖掘,以目录维度评估冗余度

冗余计算意味着同一份资料被多个加工流程加工,主要是由于前期为了支撑业务快速上线、没有统一规划、无序建设过程中所引发的问题。

在运营商海量资料背景下,资料重复加工意味着对内存、CPU、储存容量、IO、档案数量、RPC负载有着全面且巨大的影响。

在全域数十万加工作业中如何全面且精准定位冗余计算成为不小的挑战,基于此持续优化线上加工流程更是一个缓慢的过程,需要详细梳理业务需求,制定资料标准,明确资料口径。

洞察冗余计算主要思路是解析全域数十万个作业并从每个作业千个配置项中解析出输入目录,每个作业会有多个输入目录,最多的有上百个甚至上千个,且目录中含有省份、账期、基站等各种分割槽型别。

我们需要对目录进行通用化处理,以目录为维度统计对应的加工流程以及每个加工流程对应的作业例项,从每个作业例项中计算内存消耗、CPU消耗、储存消耗、IO负载、档案数增长、RPC负载以评估冗余计算带来的成本、优化后达到的效果、执行周期内对其他资料加工产生的影响,以精细化资料为基础协调各组织进行持续治理。

1)技术实现方案

第七步:重构资料血缘、元资料、资料资产管理应用

1)面临挑战

基于以上痛点,着手重构了企业级全域元资料平台,提供全域物理检视、业务检视、元资料变更跟踪监控、全域资料血缘关系图等核心功能。

物理检视提升对资料的认知,业务检视展示资料支撑能力,元资料变更跟踪实时了解产线环境异常修改,资料血缘可提供资料追溯、资料成本价值洞察、敏感资料流向。

元资料平台检视

元资料平台应用

全域资料血缘关系图

2)技术实现方案

第八步:智慧分析丛集使用者行为画像,检测预测异常

产线环境难免存在资料被误删除的情况,故障发生后,一般要通过较复杂的综合定位过程才能发现根因。

此时产线加工可能受阻、资料具备时间延迟,进一步影响到产品质量和使用者体验。

由于此类故障从根本上难以彻底消除,为尽可能的降低负面影响,可建立使用者行为异常操作智慧检测机制,对不正常的使用者操作及时预警,在一定程度上提前发现问题、规避故障。

1)技术实现方案

根据产线环境千万级的作业资讯,结合当下的资源状态进行特征抽取,建立实时的机器学习模型,对当前以及未来一段时间视窗的资源占用进行预测,将检测到的异常状态波动进行告警。

六、结语

在运营商大规模丛集治理的实践过程中,有几点感悟:

作者:尹正军、穆纯进

来源:中国联通大资料订阅号(ID:unibigdata)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:[email protected]

2019-11-11 08:52:00

相关文章