APP下载

大资料采集 大资料分析 大资料储存就该这样学 免费送视讯教程

2019-07-09 02:48

大资料采集

01

概览

02

相关延展

系统日志资料的采集

Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它够从各种日志源上收集日志,储存到一个中央储存系统上,以便于进行集中的统计分析处理。 Scribe为日志的“分散式收集,统一处理”提供了一个可扩充套件的、高容错的方案。(老师收学生资讯表,需要班长代理收集的例子)。

Chukwa提供了一个对大资料量日志类资料采集、储存、分析和展示的全套解决方案和框架,可以用于监控大规模Hadoop 丛集的整体执行情况并对它们的日志进行分析(相当于学校内无死角的监控摄像头)。

注:以上两张架构图现在不太理解,当学完第四章再回过头来看,就easy多了。

大资料预处理

资料清理通过填写缺失值,光滑噪声资料,识别或删除离群点并解决不一致性来“清理”资料。资料清理的过程主要包括资料预处理、确定清理方法、检验清理方法、执行清理工具和资料归档。同时每个阶段可以再分若干个任务。

资料整合是将来自多个数据源的资料集整合到一起,但整合后的不可避免的会出现资料冗余,原因主要有:代表同一概念的属性在不同数据库中可能具有不同的名字;有些属性可能由于其他属性汇出的。资料整合后可以再次进行资料清理、检测和删去由资料集带来的冗余。

资料归约的目的是得到资料集的简化表示。虽然资料集的简化表示比原资料集的规模小得多,但仍然能够产生几乎同样的分析结果。

资料变换是使用规范化、资料离散化和概念分层等方法使得资料的玩具可以在多个抽象层上进行。资料变换操作是引导资料探勘过程成功的附加预处理过程。

大资料分析

01

概览资料分析

资料分析是大资料价值链中最终和最重要的阶段,其目的是挖掘资料中潜在的价值以提供相应的建议或决策。

资料分析( Data Analysis)是一个检查、清理、转换和建模资料的过程,目的是发现有用的资讯,得出结论和推动决策制定。

资料探勘(Data mining)是指用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的资料集中发现模式的计算过程。

资料分析流程(下图)(两句话,①资料分析是从业务中来,到业务中去;②脱离了业务的资料分析都是耍流氓)。

02

传统资料分析方法

比较有代表性的传统资料分析方法:

统计分析,相关分析,回归分析,聚类分析,因子分析,A / B测试;

①统计分析

②相关分析:一种用于确定观测现象之间的相关规律,从而进行预测和控制的分析方法。相关分析是利用现有统计资料研究关系的强度的过程(例子是身高与年龄)。同时,相关不等于因果(睡眠与收入)。

③回归分析:揭示一个变数和其他几个变数之间的相关性的数学工具。

回归分析能够识别随机隐藏的变数之间的依赖关系(一元线性回归)。

④聚类分析:一种将物件进行分组的统计方法。聚类分析用于区分具有某些特征的物件,并根据这些特征将它们分成不同的类别。同一类别中的物件具有高同质性,不同类别中的物件具有高异质性。

⑤因子分析:主要是通过少数几个因子,来描述大量指标或元素之间的关系(例子是找物件,以自己中意的几个典型的维度对另一半进行刻画。如白富美,地域,教养,品行,性格等等)。

⑥A/B测试,也称为水桶测试。它通过比较测试组,制定能改善目标变数的计划(更多地应用在产品或网页的设计中,根据使用者体验与反馈对产品进行完善)。

03

大资料分析方法

这部分更多地是对大资料储存效率,以及读取速度进行优化的大资料分析方法。

①布隆过滤器:由一个位数组和一系列的杂凑函式组成。布隆过滤器的原理是通过利用位阵列来储存资料本身之外的资料的杂凑值。位阵列本质上是使用杂凑函式来进行资料的有失真压缩,从而储存其位图索引。布隆过滤器算法的核心思想:利用多个不同的杂凑函式来解决“冲突”。(例子是班级同学进行一间屋子,门口会有一排灯,某几个灯亮表示一个同学,为了避免冲突,灯亮以颜色进行区分。灯亮表示1,不亮表示0)。

②杂凑法:一种将资料变换为较短的固定长度数值或索引值的基本方法。特点:快速读取、快速写入和高查询速度。难点:如何找到健全的杂凑函式。 优点:空间效率高、查询速度快。缺点:具有一定的误识别率、删除困难等。例子是谍战片里面传递情报场景,最重要的是找到密码本(杂凑法的难点)。

③索引法:是减少磁盘读取和写入成本的有效方法。索引法能够提高插入、删除、修改和查询速度。索引一般分为两类:聚集索引和非聚集索引。例子是索引类似于书籍的目录。

④字典树:又称单词查询树,是一种杂凑树的变体。它主要应用于快速检索和字频统计。主要思想是:利用字串的常见字首来最大限度地减少字串的比较,从而提高查询效率。

⑤平行计算:平行计算是指利用若干计算资源来完成计算任务。其基本思想是:分解一个问题并将其分配给几个独立的程序,以便独立完成,从而实现协同处理。

04

大资料分析架构

大资料分析可以根据实时要求分为实时分析(金融领域:超市付款,哈罗单车)和离线分析(淘宝商品推荐)。

大资料分析按照层次的不同,还可以分为内存级分析、BI分析(资料层、业务层和应用层)和海量分析(资料采集模组、资料冗余模组、维度定义模组、并行分析模组)。

05

大资料分析应用工具(略)

课上通过R语言的展示,旨在让同学们对大资料分析的功能有个直观认识。

大资料储存

从本章开始,涉及的大资料名词越来越多,开始大家觉得晦涩难懂,随着课程的推进,一些技术及名词会慢慢熟悉,希望大家耐著性子学习。坚持下来,不要让东哥唱独角戏哈!

01

概览

02

云端储存

云端储存没有行业权威的定义。云端储存是在云端计算(cloud computing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络储存技术,是指通过丛集应用、网络技术或分散式档案系统等功能,将网络中大量各种不同型别的储存装置通过应用软件集合起来协同工作,共同对外提供资料储存和业务访问功能的一个系统。云端储存不仅是储存装置或技术,更是一种服务的创新。

特点:可靠性、可用性、安全性、规范化、低成本。

架构(动物园):访问层、应用界面层、基础管理层。

技术:储存虚拟化(齐天大圣)、分散式储存、资料缩减、负载均衡。

云端储存的虚拟化将储存资源虚拟化为全域性名称空间(动物园的名字),并通过多租户技术(跟着旅行社的导游参观动物园)给使用者提供储存资源。

分散式储存分为分散式块储存,分散式物件储存以及分散式档案系统。

资料缩减一定程度上节约企业储存成本,提高效率。包括自动精简配置(欺骗),自动储存分层(超市摆放物品),重复资料删除(自己产生的资料)。

负载均衡技术,节点的负载均衡能够更好的实现系统的动态扩充套件,即若系统收到的请求均匀分配给每个节点后超出节点的处理能力,只需通过扩充节点的数目就可以减少系统所有节点的压力,而无需对内部的负载均衡机制做任何处理。(4x1接力比赛,体育委员根据每个人的速度,耐力分配接力顺序)。

03

大资料储存

大资料储存系统架构分为DAS,NAS以及SAN。

DAS

适用环境:①服务器地理分布很分散,通过SAN或NAS互联困难。②储存系统必须直接与应用服务器连线。③小型网络。

缺点:①扩充套件性差。②资源利用率低。③可管理性差。DAS的资料分散在应用服务器各自的储存装置上,不变集中管理、分析和使用资料。④异构化严重。

NAS

优点:①即插即用,可以基于已有的企业网络方便连线到应用服务器。②专用操作系统支援不同的档案系统,从而可以支援应用服务器不同操作系统之间的档案共享。③专用服务器上经过优化的档案系统提高了档案的访问效率。④独立于应用服务器,即使应用服务器故障或停止工作,仍然可以读出资料。

缺点:①共用网络的模式使网络带宽成为储存效能瓶颈。②NAS访问要经过档案系统格式转换,故只能以档案一级访问,不适合块级的应用。

SAN

04

资料仓库

从决策支援角度来看,资料仓库可以简单定义为:专为决策支援服务的数据库系统 ,它并非对原有业务系统的取代,而是在所有业务系统之上建立一个统一的、一致的企业级资料检视。

特点:资料仓库的的资料是面向主题组织的;资料仓库中的资料是继承的。资料仓库的资料是稳定的。资料是随时间不断变化的。

资料仓库与数据库的区别

在物理实现上,资料仓库与传统意义上的数据库并无本质的区别,主要是以关系表的形式实现的。更多的时候,我们将资料仓库作为一个数据库应用系统来看待。

资料仓库体系架构:资料仓库从多个资讯源中获取原始资料,经过整理加工后储存在资料仓库的内部数据库。通过资料仓库访问工具,向资料仓库的使用者提供统一、协调和整合的资讯环境,支援企业全域性决策过程和对企业经营管理的深入综合分析。整个资料仓库系统是一个包含4个层次的体系机构。

获取方式:

1、请评论区留下你们评论:转发

2、评论后私信我:“资料”即可领取!

一个转发+评论,一份资料。名额有限,太多人我送不过来,请体谅!

相关文章

最新资讯

  • 抽送万元SHE’S高定手包,荣耀20青春版双十一…
    2019-11-11 19:51
  • 刷新送装调试记录 国美双十一第一单诞生
    2019-11-11 19:51
  • 双十一,苏宁有房联手我爱我家布局南昌
    2019-11-11 19:51
  • 苏宁小Biu双十一战报出炉,多个爆款全渠道销量…
    2019-11-11 19:51
  • 苏宁双十一首战告捷,全站流量上升267%,100万…
    2019-11-11 19:51

手机

  • 《Tom‘s Guide》评选2019年最值得购买的手机排行榜出炉 2017年的iPhone 8 被列为最划算的iPhone
    2019-11-11 17:49
  • 红米 Note 8 Pro :6400 万画素4主镜头平价手机 摄影与效能都给你
    2019-11-11 14:49
  • DXOMark排行榜已成各家手机拍照标准 外媒质疑这个榜付钱就有机会拿高分?
    2019-11-10 16:47
  • 外媒质疑每家手机都以DXOMark排行来说自己拍照第一 但这个榜你付钱就有机会拿高分?
    2019-11-10 15:49
  • Pixel 4 XL 银河拍摄实战 曝光 4 分钟确实可以拍出银河、飞机轨
    2019-11-10 14:47

数码

  • 无可挑剔的顶尖水准 索尼A1带来OLED电视春天
    2019-02-20 14:47
  • 国美门店现货发售华为新款旗舰P10系列手机
    2019-02-20 14:47
  • 小摩托挂上AI摄像头,去认识一下全城的垃圾
    2019-11-11 09:53
  • 实力引领OLED未来 索尼A1强势称王
    2019-02-20 14:47
  • 库克纪念柏林墙倒塌30周年 苹果德国官网换上纪念图片
    2019-11-11 21:48

科技

  • 是手机的吸引力变强了 还是我们自身变了?
    2018-07-18 22:31
  • 讲一下我操作的几只股
    2018-07-18 22:31
  • 全新配色魅夜紫惊艳来袭全新版vivoX217月20日正式开售
    2018-07-18 22:31
  • 以Dubly的方式进行:杜比视觉HDR到xboxone和xboxoneX
    2018-07-18 22:31
  • 一加在重命名Dash充电系统
    2018-07-18 22:31