APP下载

干货:玩转大资料必须掌握7大核心技术概念 文末有福利

消息来源:baojiabao.com 作者: 发布时间:2024-05-14

报价宝综合消息干货:玩转大资料必须掌握7大核心技术概念 文末有福利

大资料概念:大资料究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大资料的一些主要的定义。首先要注意的是…

大资料概念

大资料究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大资料的一些主要的定义。首先要注意的是,行业内的所有人都普遍认同,大资料不只是更多的资料。

(1)最初的大资料

大资料的特征可以用很多词来描述。2001年Doug Laney最先提出“3V”模型, 包括数量 (Volume)、速度(Velocity)和种类(Variety)。在那以后,业界很多人把3V扩充套件到了11V,还包括有效性、真实性、价值和可见性等。

(2)大资料:技术

为什么十多年前的老术语突然被放在聚光灯下?这不仅是因为我们现在拥有比十年前更多的数量、速度和种类。而是因为大资料受到新技术的推动,特别是快速发展的开源技术,例如Hadoop和其他储存和处理资料的NoSQL方式。

这些新技术的使用者需要一个术语来将它们区别于以前的技术,于是大资料成了他们的最佳选择。如果你去参加大资料会议,你肯定会发现,涉及关系型数据库的会议会很少,无论他们鼓吹多少个V。

(3)大资料与资料的区别

大资料技术的问题是,大资料有些含糊不清,以至于行业中的每个供应商都可以跳进来声称自己的技术是大资料技术。以下是两种很好的方法来帮助企业理解现在的大资料与过去单纯的大资料的区别。

交易、互动和观察:这是由Hortonworks公司负责企业战略的副总裁Shaun Connolly提出的。交易是我们过去收集、储存和分析的主要资料。互动是人们点选网页等操作得到的资料。观察是自动收集的资料。

(4)大资料:讯号

SAP公司的Steve Lucas认为,应该根据意图和时机来划分这个世界,而不是根据资料的型别。“旧世界”主要是关于交易,当这些交易被记录时,我们已经无法对它们采取任何行动:企业都在不断管理“失效的资料”。而在“新世界”,企业可以使用新的“讯号”资料来预测将会发生什么,并进行干预来改善情况。

相关的案例有,追踪社交媒体上人们对品牌的态度,以及预测性维护(用复杂的算法帮助你决定何时需要更换零部件)。

(5)大资料:机会

这是来自451 Research的Matt Aslett,他将大资料定位为“之前因为技术限制而被忽略的资料”。(虽然在技术上,Matt使用了“暗资料”,而不是大资料,但已经非常接近)。这是笔者最喜欢的定义,因为它符合大部分文章和讨论中的说法。

(6)大资料:隐喻

Rick Smolan在其书中写道,大资料是“帮助这个星球生成神经系统的过程,其中我们人类只是另一种型别的感测器”。很深奥吧?

(7)大资料:新瓶装旧酒

很多专案基本上是使用以前的技术,这些过去被称为BI或者分析的技术突然跳入大资料的行列中。

底线:尽管大家对大资料的定义有很多争议,但所有人都同意这个事实:大资料是一个大事件,在未来几年将带来巨大的机遇。

如何玩转大资料

随着科技的不断进步,日常工作、生活中的资料量也是节节攀升,我们迎来了大资料时代。

以大资料为代表的资料密集型科学将成为新一次技术变革的基石。随着资料的进一步集中和资料量的增大,对海量资料进行安全防护变得更加困难,资料的分散式处理也加大了资料泄露的风险。

物联网、云端计算、移动互联网等新技术的发展,使得手机、平板电脑、PC及遍布地球各个角落的感测器,成为资料来源和承载方式,BYOD也随之诞生。

(1)何为大资料

据有关分析公司预测,到2013年,互联网承载的资料量将会达到每年667EB,这是什么概念?1EB=230GB,资料量之大显而易见,这些资料绝大多数是“非结构化资料”,通常不能为传统的数据库所用,但是大资料技术革新将会给我们的生活带来巨大变化。

(2)四大特点组成大资料

资料量巨大:人类生产的所有印刷材料的资料量是200PB(1PB=210TB),而历史上全人类说过的所有的话的资料量大约5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的资料量已经接近EB量级,如此庞大的资料量群,分析它们的难度可想而知,因此需要大量的大资料解决方案。

价值密度低:这也是当今大资料背景下需要解决的一个难题,价值密度的高低与资料总量的大小成反比,如果看一小时视讯,在连续不间断的监控中有用资料的时间可能会很短,甚至是几秒钟,那么强大的资料计算机的算法就需要非常迅速地完成对资料的“提纯”。

资料型别多:这点不用多解释,资料型别的多样性也让资料被分为结构化资料和非结构化资料。相对于以往便于储存的以文字为主的结构化资料,非结构化资料越来越多,包括网络日志、音讯、视讯、图片、地理位置资讯等。

处理速度快:据IDC研究机构报告显示,预计到2020年,全球资料使用量将达到35.2ZB(1ZB=210EB),分析这么大的资料,就需要装置对资料的处理速度有很大的提升。

(3)大资料给企业谋福利

2012年3月,美国宣布投资2亿美元启动“大资料研究和发展计划”,藉以增强收集海量资料、分析萃取资讯的能力。2012年瑞士达沃斯论坛上释出的《大资料大影响》报告称,资料已成为一种新的经济资产类别,就像货币或黄金一样,许多国家-更是把大资料上升到战略层面。

(4)全球大资料市场发展趋势

对企业来讲,在大资料背景下资料资产将会取代人才成为各个公司和行业的重要载体,可以有效地帮助企业完成业务的操作、流程的制定以及公司各项工作的运营和监督,通过对资料的分析,帮助企业领导者进行各项决策。

大资料对企业的核心资产也进行了重塑,企业必须熟悉和用好海量的资料,而互联网行业已提早感受到了大资料带来的深切变化。一些互联网企业已经完成了核心竞争力的重新定义。

(5)资讯保安不容小视

大资料成为网络攻击的显著目标,在网络空间,大资料是更容易被“发现”的大目标。一方面,大资料意味着海量的资料,也意味着更复杂、更敏感的资料,这些资料会吸引更多的潜在攻击者。另一方面,资料的大量汇集,使得黑客成功攻击一次就能获得更多资料,无形中降低了黑客的进攻成本,增加了“收益率”。

如此庞大的资料中包含了很多个人资讯,甚至是隐私资讯,资料的集中储存就势必带来大量资料丢失和破坏的风险,一些敏感资料的所有权和使用权并没有明确界定,很多基于大资料的分析都未考虑到其中涉及的个体隐私问题。

许多企业对大资料的认知程度不同,因此致使企业在大资料管理和运营中会出现不妥之处,安全防护手段的更新升级速度无法跟上资料量非线性增长的步伐,就会暴露大资料安全防护的漏洞。

大资料技术很容易成为黑客的攻击手段,在企业用资料探勘和资料分析等大资料技术获取商业价值的同时,黑客也在利用这些大资料技术向企业发起攻击。黑客会最大限度地收集更多有用资讯。

传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而高阶可持续攻击是一个实施过程,无法被实时检测。此外,大资料的价值低密度性,使得安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大资料中。

(6)切忌一哄而上

中国工程院院士邬贺铨曾建议,中国发展大资料需要尽快制定资讯保护法与资讯公开法,既要鼓励面向群体而且服务于社会的资料探勘,又要防止针对个体侵犯隐私的行为,既要提倡资料共享又要防止资料被滥用。

(7)国内大资料发展

在制造行业,企业通过对网上大资料分析了解客户需求和掌握市场动向,并对大资料进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失,大资料是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起。

更多大资料学习资料,可以私信小编“资料”免费获取哦~

最后,希望可以帮小编转发并关注一下,您的转发和关注就是对小编最大的支援与鼓励!!!

2019-08-26 03:50:00

相关文章