APP下载

河南移动的MPP大数据平台对象存储实践

消息来源:baojiabao.com 作者: 发布时间:2024-04-25

报价宝综合消息河南移动的MPP大数据平台对象存储实践

  电信与媒体市场调研公司Informa Telecoms & Media的调查结果显示,早在2013年,全球120家运营商中约有48%的运营商正在实施大数据业务。大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右。

  电信运营商在运营服务中积累了大量数据,既包括日志、账单、信令等结构化和半结构化数据,也会涉及到图片、文本、音频、视频等非结构化数据。据不完全统计,一个省一天的运营商数据量可达到PB级。

  而通过对海量数据资源的挖掘,可支撑运营商快速响应需求,实现敏捷运营,以及推动数字化转型。例如,利用大数据对DPI(Deep Packet Inspection,基于数据包的深度检测)等数据进行分析,可获取客户的行为偏好,实现客户精准营销。

  01河南移动的实践

  据媒体报道,早在2018年7月,河南移动4G用户数量已突破4000万,在河南运营商市场处于领先地位。与此同时,其家庭宽带客户接近900万,建设4G基站10万个;物联网连接数接近2000万(新闻链接:https://news.dahe.cn/2018/07-03/336954.html ); 2019年,河南移动全面启动了5G建设。

  为了更加精细化大数据运营,管理和监控网络流量数据,河南移动部署了统一DPI系统实现海量日志数据处理,包括支撑集团和省层面的网络运行、企业信息、市场营销、网信安全、特殊通信等五大类应用,如移动感知分析、移动上网日志留存、信息推送、流量轨迹查询、IDC/ISP信安系统等。

统一DPI系统

  在该业务的数据处理上,客户过去采用MR+HiveSQL+HDFS+Flum传统架构进行支撑。这一解决方案导致:在应用端,无法实现多种数据融合分析,多并发能力不足查询效率不高;在存储端,计算存储紧耦合不够弹性,出现存储访问瓶颈,无法支持海量数据的按需扩展;以及更复杂的运维,更高的建设成本,逐渐难以满足海量日志分析的需求。

  为了解决上述问题,客户在数据共享层采用了HashData+XEOS+gdfdists新架构,为客户提供云原生数据仓库解决方案,相对于原Hadoop方案,可减少60%的集群硬件和70%的运维投入。

数据共享层解决方案

  1、AAA解析模块:接受Radius原始流量解析后发送至HashData平台;

  2、Web服务器:负责策略生成、策略下发、数据结果展现;

  3、HashData:数据导入、数据清洗、数据查询和数据分发(数据生成与Td上报程序);

  4、XEOS:对接HashData平台,海量日志数据存储。

  在新的解决方案中,XEOS替代原先HDFS实现PB级数据在线管理,同时提供冷热数据分层、索引数据多副本、日志数据采用纠删码(EC纠删码12+3,得盘率80%)等策略,保障整体方案的更优性价比。目前,客户已采购1.5PB存储容量…

  02现有的数据应用问题

  今天,企业数据呈指数级增长,基于海量数据的分析、挖掘数据价值成为运营商和企业用户的常态化选择。然而数据环境的诸多变化,驱动了数据应用的新需求产生:

  1、全量数据处理:统一系统内处理内外部的海量数据,数据类型复杂如结构化数据、半结构化数据;

  2、高并发响应:更多部门、角色甚至机器参与到数据访问中,动态的支持高并发响应;

  3、多维实时分析:将各维度的数据关联进行数据分析挖掘,没有大量时间做预处理,裸数据实时响应;

  4、跨平台访问:数据访问环境差异,公有云、私有云以及混合云等多种场景下,跨平台数据灵活访问;

  5、云技术融合:大数据和云计算技术飞速发展,如何充分利用云的优势让数据发挥更大价值亟待解决。

  面对数据应用的上述新需求,现有的解决方案面临着以下问题:

  1、共享存储数据仓库

  ▪ 扩展性差

  ▪ 存储访问瓶颈

  ▪ 无法支持海量数据

  ▪ 一体机价格昂贵

  2、MPP数据仓库

  ▪ 无法支持多种数据类型

  ▪ 大数据量性能级稳定性下降

  ▪ 扩容数据重分布难度大过程冗长

  ▪ 无法合理规划以及灵活利用存储和计算资源

  ▪ 无法支持高并发

  3、Hadoop及NoSQL方案

  ▪ 不完全支持SQL

  ▪ 计算存储紧耦合不够弹性

  ▪ 配置、调优、管理、维护复杂

  ▪ 学习成本高、学习曲线陡峭

  ▪ 效率低下,高并发能力有限

  ▪ 查询性能不稳定,影响因素多

  03存算分离的云原生数仓

  鉴于此,HashData(酷克数据)研发设计了新一代云原生数据仓库架构。HashData企业级云数据仓库是一个高性能、完全托管的PB级数据仓库服务,融合MPP高效引擎、云计算的弹性以及大数据平台综合数据处理能力三方特性。全面兼容PostgreSQL协议以及SQL 2008语法标准,对外提供标准的JDBC和ODBC接口,无缝集成主流ETL和BI工具。

  新一代云原生数据仓库架构具有以下特点:

  ▪ 元数据、计算和存储三者分离;

  ▪ SQL on 对象存储;

  ▪ 按需动态水平扩容;

  ▪ 支持跨数据中心和云平台数据访问;

  ▪ 毫秒级响应海量数据交互式查询及多维分析;

  ▪ 高可用架构以及灵活数据副本策略;

  ▪ 无缝对接Oracle、MySQL、DB2、MongoDB等以及主流BI产品。

  在基于云原生的计算和存储分离数据仓库方案构建中,独立扩展的计算和存储更加灵活,同时可显著降低成本。HashData与XSKY建立了合作伙伴关系,利用XSKY XEOS对象存储与HashData企业级云数据仓库形成统一解决方案,并具有以下优势:

  ▪ 计算存储分离部署,按需扩容,大幅降低TCO;

  ▪ 更加优化的性能,以及企业级存储特性;

  ▪ 适用于大数据平台的容灾备份;

  ▪ 整体方案性能更加稳定,易交付易维护,简化工作流程大幅缩短交付周期。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

2020-01-16 10:49:00

相关文章