APP下载

奇点云 DataSimba R4.5 发布关键更新,“可大可小可观测”的数据云这样炼成

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息奇点云 DataSimba R4.5 发布关键更新,“可大可小可观测”的数据云这样炼成

在近日的 StartDT Day 数智科技大会上,奇点云揭晓了数据云平台 DataSimba R4.5 的关键更新。

100% 容器化、可大可小可观测、多租户安全…StartDT 合伙人、CTO 地雷介绍,以 DataSimba R4.5 为代表,数据云全系产品都带来了许多新功能,其中部分功能已伴随版本发布在客户现场完成落地。"我们最高兴的不是攻下了业内公认的技术难关,而是这些攻关都是客户真正需要的,也得到了客户实践后的认可。"

#1 多租户体系发布,"分级多域"再升级

多租户安全体系,核心解决安全隔离与计算资源的调配问题。

具体而言,各租户间设置数据权限隔离,管控敏感数据访问,即便在同一个工作空间(Workspace),各部门的核心数据也互不共享;多团队间实现存算资源隔离,避免出现资源抢占、影响作业进度的情况。

地雷介绍,DataSimba 掌握"跨平台"的核心技术,企业可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个工作空间进行管理。而此次多租户体系发布则是 DataSimba"分级多域"能力的再升级,主要面向大型集团内多部门、多团队共享使用的场景,进一步为数据生产提效,保障数据安全。

* 在数据云平台初步建成、数据孤岛基本打通后,企业的各部门 / BU / 子公司需要在平台上建立自己的数据生产应用 -- 这些部门就可以设为"租户"。

如何理解全新升级的"分级多域"?如上图所示:

1)客户可以有若干工作空间,比如核心数据存在自有 IDC 机房,主要业务数据存在华为云,海外的经营数据存在海外当地的 AWS。这些数据通过工作空间进行隔离 -- 满足企业多云战略,也符合所在地域的数据安全与审计要求;同时,通过一套数据云平台 DataSimba,能跨云跨平台地完成统一的租户与账户管理、安全策略与审计,大大提升集团管控效率。

2)在一个工作空间下,租户可以建立自己的项目(Project),并进一步建立项目内的角色,进行权限划分,甚至能具体到表的行级、列级。

3)权限管控体系有序而灵活,多个租户都可以在一个工作空间下建立项目,一个租户也可以在不同的工作空间建立不同的项目。而如果需要(例如上市公司的财务部门),一个租户也可以独占一个工作空间。

4)在没有授权的情况下,不同租户、不同项目之间的数据均不可互相查看和调用。

此外,多租户体系不仅能实现更精细化的数据权限隔离,还解决了不同项目之间存算资源隔离的问题 -- 说白话,每个租户、项目可以设定各自的存算资源,租户 A 小小的任务不再需要在租户 B 超大规模的任务后排队;如果有租户一不小心耗尽了自己的资源,也不会干扰其他租户的生产作业。

#2 100% 容器化,可大可小可扩展

奇点云对数据云的产品技术架构进行了改造,使其具备可扩展能力,可大可小,满足不同企业的不同量级需求:

可大,指支撑数据量达 500PB 级,日调度总量达千万级,支持 1.5 亿运营会员数,埋点事件数超千亿,稳定性达 99.95%;

可小,则极致轻量,仅需 0.5 天时间完成部署,依旧能支撑 TB 级数据量、亿级埋点事件、百万级运营会员数,运维简单,性能依旧优越。

此外,"数据云 + 分析云"全家桶所需的最小部署资源,相较半年前也已降低 30%。

地雷谈到,本轮改造出于两方面原因:

其一,奇点云与 GrowingIO 并购重组后,服务客户的范围明显扩大,数据的量级、对数据基础设施的需求都有所不同。"可大可小可扩展"能更好地支撑不同客户多元化的需求。

其二,数据基础设施本身架构复杂,研发团队庞大,难免出现"不够优雅"的情况,改造后平台减少冗余,更稳定有序,也有利于上层应用拓展创新。

伴随数字化进程深入,越来越多企业已经走过"单点增长"的阶段,而期望打通全域数据、获得全景洞察,进一步挖掘数据价值。与此同时,也开始面临数据孤岛、数据资产难沉淀难管理、缺少专业数据运维团队等问题。

轻量级的数据云发布,意味着资源、技术等使用门槛得到降低,有更多企业能用更少的成本享受依旧优越的性能,试水"数据规模化高效率驱动增长"。

对于大型集团企业,数据云则以工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。

数据云实现"可大可小",得益于架构的重塑升级,也与容器化进展密切相关。

容器化是云原生领域的一项经典要素,它本质上是一种虚拟化技术,一台主机可以虚拟出上千个容器。单个容器的启动时间更快,占用空间更小,可以根据实际应用的大小来弹性分配资源,部署和运维也更简单。

地雷透露,数据云平台 DataSimba 早在 2020 年就已实现容器化。而今年,数据云全系产品均完成容器化。"要真正做到 100% 容器化,数据存算引擎 DataKun 是硬骨头。"地雷表示,"业内熟知,有状态的服务做容器化很难。数据存算引擎不仅仅是典型的有状态服务,而且数据持久化要求高、非常复杂。"

100% 容器化有效降低了环境维护成本及工具链的开发和学习成本,数据云的部署效率与维护便捷性亦得到进一步提升;支持作业智能调度,能帮助企业找到任务运行及资源利用的最优性价比方式;同时,资源进一步得到有效隔离。

数据云产品矩阵

#3 具备可观测性,让数据辅助运维

"我依赖了你的表,任务真的有依赖吗?配对了吗?""今天作业变更有潜在风险,下个批次如何保障成功?""哪个服务模块出现异常,根本原因何在?"

数据云的可观测性,就是为了解决上述"不可见"的问题。

Gartner 在"2023 年十大战略技术趋势"中,这样描述应用可观测性(Applied Observability):在任何相关方采取任何类型的行动时,都会产生包含了数字化特征的可观测数据,如日志、痕迹、API 调用、停留时间、下载和文件传输等。应用可观测性以一种高度统筹和整合的方式,将这些可观测的特征数据进行反馈,创造出一个决策循环,从而提高组织决策的有效性。

简而言之,可观测性之于数据云,如同仪表盘之于汽车。

具备可观测性,也就意味着平台内部状态并非黑箱,企业能通过关键指标、标签来监控其状态,对数据云内部的数据作业、云资源等有明确认知,通过 APM(应用性能监控)或 AIOps(智能自动化运维)辅助平台运维,降低复杂血缘关系下的作业运维难度,提升运维效率。

"DataSimba 的元仓在性能优化、数据治理、数据安全、智能运维等数据域,提供上百个高价值指标。这些指标总结自我们数百个客户项目的运维经验 -- 其中当然包括解决最让客户头疼的作业依赖和变更问题,经实践证明非常有效。"地雷笑谈,"最重要的,当平台更可知可控,我们客户的运维团队睡眠质量也随之得到改善。"

#4 流批图架构,练就全域 One-ID"多快好省"

严格来说,流批图一体并不是数据云平台 DataSimba 的新功能,而是技术架构方案的创新 -- 为满足高质量全域 One-ID 的需求而生。

要做到全域用户精细化运营,实现全域 One-ID 是前提:打通整合多源业务数据,使用 ID-Mapping 等技术关联各业务系统的数据,在安全合规的前提下生成唯一用户标识,持续丰富标签、扩充数据,赋能全域运营和营销场景。

然而,真正实践过的企业也一定会遇到这三大挑战:

・计算性能的挑战:企业数据体量大,渠道多,ID 类型多,还需要考虑存量和增量数据的场景,对计算性能的考验不可小觑。部分大型企业有亿级用户数据、数百个渠道,要求更高。

・复杂计算场景的挑战:如果 ID 类型多、ID 关系复杂,对传统的规则计算是极大挑战;如果各渠道数据质量参差不齐,则还需要考虑如何设定 ID 关系权重与数据置信度。

・验证结果的挑战:传统规则计算的结果准确性难以验证,而数据赋能业务决策最基础的要求就是准确。

为此,奇点云综合考量时效性、可解释性、业务扩展性、准确度等 7 个维度,基于 DataSimba 的能力提出了"流批图一体架构"--DataSimba 的 Task、Job 双层调度体系,全面支持离线、实时及图计算。

"这并不是在'流批一体'上硬造新词,而是经过我们多轮方案和实践对比,最后发现这样的架构落地最可靠,在计算性能、复杂场景计算及可解释性上均具备优势,最能满足企业的 One-ID 需求。"

地雷介绍,基于业内独家的流批图一体技术架构,不仅能支撑分析云实现全域 One-ID,还有显著的效果加成:

"多",支持全渠道海量用户数据计算,压缩比最大可达 30%+;

"快",数据处理大幅提效,相较常规方式约能提速 5 倍;

"好",处理结果准确度高,测试用例通过率达 100%,One-ID 关联覆盖率 > 99.9%;

"省",跨渠道关联更多用户,节约重复投放成本。

客户可以根据自身需求,在数据实时性、计算成本等要素中取舍,满足多元场景,获得更具性价比的体验。

目前,DataSimba 已将图计算引擎集成为算法组件之一。客户可以依托 DataSimba 一站式地完成数据集成、交互式任务开发、任务调度、任务运维、数据治理及数据安全等工作。应用层还提供 One-ID 与数据安全异常识别的算法包,帮助数据团队更高效地支撑前台业务。

#5"零信任"架构,守护数据资产安全

DataBlack 是数据云内嵌的数据安全引擎,脱胎于企业合规审计、合法使用、安全分享等需求。

遵循以数据为中心的安全架构设计理念,DataBlack 通过智能分级分类、数据脱敏和加密、风险识别与告警、权限管控、全面审计等核心技术,支撑企业完成全链路、全场景、全智能的数据全生命周期安全管控。

地雷表示,自今年 5 月 20 日正式发布商业化版本以来,DataBlack 就受到了市场热烈反馈,现已在许多客户场景落地投产,并沉淀出了泛零售、金融、制造等行业的解决方案与标杆案例。

本次 StartDT Day,DataBlack 公开了新能力:

・全面满足"零信任"要求,对访问和使用持续进行动态识别验证,自动化、智能化、全场景识别风险,确保数据是在合适的时机、恰当的需求下被有权限的用户合理地使用;

・对数据资产的传输、计算、存储、服务和架构进行了全方位安全加固;

・基于日志审计分析与多源异构数据分析,依托机器学习与 AI 能力,达到更精准的风险识别效果。

"DataBlack 之所以是数据云体系的重要组成部分,因为它不仅仅看重'保护式安全'。"地雷谈到,"我们不仅要为企业数据资产的安全护航,也致力于为数据流动创造可靠、可信、可控的空间,以便数据真正发挥价值。"

当然,企业级的数据安全合规并不能只靠部署产品一键搞定。奇点云提供一站式的"咨询 + 产品 + 实施服务",帮助客户应对数据安全的种种挑战。

从众多新功能、新技术、新架构中可以看到,跨平台、云原生、自主可控、数据安全依然是数据云迭代的主轴。

这 14 字的技术战略,与奇点云对前沿数据技术的掌握、客户需求的洞察密切相关,更包含着我们对企业级数据基础设施的理解:要持续提升平台的可用性、易用性、稳定性和可扩展性,优化客户的数据团队体验;加强敏捷迭代能力,帮助上层应用拓展创新,加快用数据创造价值的速度。

其本质出发点,是坚持独立第三方立场,与客户站在一起 -- 攻关硬核技术,同时杜绝技术自嗨,方使奇点云真正成为"客户的数据云"。

期待成为你的理想选择!

【了解 DataSimba】

DataSimba 是统一开放、中立安全的企业级数据云平台,以跨平台、云原生、自主可控、数据安全为技术内核,提供数据集成、研发、运维、服务、治理等全链路功能。帮助企业降低数据管理与资源成本,沉淀数据资产,高效便捷地响应各种数据需求,同时保障数据资产的安全可信、自主可控。

数据开发、数据运维、数据分析师、算法工程师等多类型用户,都能依托 DataSimba 这个一站式的数据云平台,高效完成数据相关工作。

【限时升级 LTS 版】

2022 年 12 月 31 日前,DataSimba 所有老版本客户(包括 R2、R3 系)均可免费升级到 DataSimba R3.8(即目前最新的 LTS 版)。

针对 DataSimba LTS 版,奇点云的数据云团队会提供长期支持与维护服务,包括但不限于及时为新发现的产品问题提供修复补丁。

2022-12-21 11:48:03

相关文章