APP下载

30个大资料学习资源 个个是干货 最后几个太给力了

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息30个大资料学习资源 个个是干货 最后几个太给力了

“资料是驱动商业向前发展的核心,更是人类社会的未来。”

尽管将马云的这句话断章取义地拿出来说会显得唐突,但这话所表达的意思却显而易见。今天给大家分享的这40个教程,送给对未来抱有远见的乐观主义拼搏者,涵盖了大资料入门的大多基础知识,从Java基础到Scala,Hadoop,Hbase,Mhout,Sqoop以及Spark等等。

需要大资料基础资料,转发+私信小编“资料”即可获取

入门知识

1. Linux 基础入门(新版)

2. Vim编辑器

3. Git 实战教程

4. MySQL 基础课程

5. MongoDB 基础教程

6. Redis基础教程

本教程的正确食用姿势:教程大都是公开免费资源(仅有一小撮需要会员许可权)。区别于目前所有主流教程,该教程的核心就是动手!跟着文件说明,在线上的Linux系统中一步一步地敲出基础知识,各种有趣专案;走出只看书、看视讯却不动手的禁区,你会比别人学的更快的,放心。

Java基础

1. Java程式语言(新版)

介绍 Java 语言基本语法、Java 平台应用、 Java 的核心概念:JVM、JDK、JRE以及 java 面向物件思想。同时我们会学到如何在系统中搭建 Java 开发环境,以及如何利用第三方工具进行 Java 程式的开发。

2. Java进阶之设计模式

介绍常用的设计模式以及 Java 语言的实现例项来学习 java 设计模式。从中我们可以学习到很多型别的设计模式,其中包括工厂模式、抽象工厂模式、单例模式、界面卡模式、观察者模式、装饰者模式等等。

image

3. JDK 核心 API

学习包括 java.lang 包,java.util 包,java.io 包,swing以及多执行绪的相关知识。

4. JDBC 入门教程

通过学习 JDBC 定义和架构,回顾 SQL 语法,搭建 JDBC 的环境,通过例项来深入学习 JDBC。从中我们将学习到如何用 java 连线到数据库,并练习编写了一个资讯管理的程式,在此基础上可以提高自己的数据库管理能力。

5. Java 8 新特性指南

介绍了 Lambda 表示式、函式式界面、Stream 流和 Date/Time API 等相关知识点。难度一般,适用于Java初学者或者是具有一定程式设计经验的开发者。

Scala基础

1. Scala 开发教程

Scala 是一门多正规化的程式语言,类似于 Java 。设计初衷是实现可伸缩的语言、并整合面向物件程式设计和函数语言程式设计的各种特性。

2. Scala 专题教程 - Case Class和模式匹配

本教程侧重介绍Scala的case class和pattern matching(模式匹配),这两个程式结构对于处理树结构的资料非常有帮助。你将可以学习到模式匹配中的常量模式、通配模式和变数模式等。

3. Scala 专题教程 - 隐式变换和隐式引数

主要介绍 Scala 中可以让函式库呼叫变得更加方便的隐式变换和隐式引数,以及如何通过它们来避免一些繁琐和显而易见的细节问题。

4. Scala 专题教程 - 抽象成员

主要介绍 Scala 中的抽象成员用法。在本教程中,你将可以学到如何使用 Type 成员,以及抽象 vals 变数的初始化方法等要点。

5. Scala 专题教程 - Extractor

本教程侧重讲解 Scala 中的 Extractor ,它可以将资料模型和检视逻辑分离,在 Scala 体系中充当类似于界面卡的角色,是一种极具函式式的做法。你将可以在课程中学到如何定义和设定 Extractor 。

6. Scala 开发二十四点游戏

24 点是一种数学游戏,正如象棋、围棋一样是一种人们喜闻乐见的娱乐活动。 它始于何年何月已无从考究,但它以自己独具的数学魅力和丰富的内涵正逐渐被越来越多的人们所接受。

image

Hadoop技术模组

1. Hadoop部署及管理

Hadoop是一款支援资料密集型分散式应用并以Apache 2.0许可协议释出的开源软件框架,本实验学习并实践Hadoop系统的不同模式的部署,以及基本的系统使用与管理。

2. Hadoop入门进阶课程

涵盖了大资料领域常见的元件,如Hadoop,Mapreduce,HBase,Mahout,Pig,Hive,Sqoop等。首先从理论上进行介绍,然后让您在实验环境中一步步搭建,及相应的案例学习。

3. HBASE 教程

HBase是一个开源的非关系型分散式数据库(NoSQL),是Hadoop专案的一部分,运行于HDFS档案系统之上,为 Hadoop 提供类似于BigTable 规模的服务。

4. Hadoop 分散式档案系统——汇入和汇出资料

一个经典的资料架构中,Hadoop 是处理复杂资料流的核心。资料往往是从许多分散的系统中收集而来,并汇入 Hadoop 分散式档案系统(HDFS)中,通过 MapReduce 或者其他基于MapReduce 封装的语言进行处理,将这些已经过滤、转换和聚合过的结果汇出到一个或多个外部系统中。

image

5. 使用 Flume 收集资料

Flume 可以从多个数据源获取资料,把这些资料传给远端主机(可能是一对多或流水线模型 中的多个目标),再把它们传给多个目的端。尽管 Flume 提供了开发自定义资料来源和资料目的端的程式设计 API,但它原本就支援许多常见的场景。

6. Kafka快速上手教程

介绍 Kafka 及实现原理,然后讲解 Kafka 整合 Flume ,KafkaOffsetMonitor 安装及使用,案例演示,学习完本教程,你将对kafka有深入的了解,很快上手。

image

7. 基于 Hadoop 对武侠小说进行词频分析

利用实验楼提供的 Hadoop 环境,对一本武侠小说的文集进行简单的 WordCount 词频统计,从而得到该书中出现频次最高的人名。需要一定的 Hadoop 和 MapReduce 基础。

8. Hadoop 图处理--《hadoop应用框架》

对于图处理,hadoop的mapreduce提供一层合并,这表明我们不得不像剥洋葱一样来处理图资料,Giraph 是 Google Pregel 的一种开源实现。本教程将基于hadoop平台实现Giraph 分散式系统中的图处理。

image

Spark技术模组

1. Spark2.x 快速入门教程

Spark进入2.0时代,引入了很多优秀特性,效能上有较大提升,API更易用。在“程式设计统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智慧”!

2. Spark 大资料动手实验

9个实验带你亲身体验Spark大资料分析的魅力,最快的上手教程,最新的技术领域,最多的动手实践。

image

3.Spark 基础之 GraphX 图计算框架学习

GraphX通过RDD的扩充套件,在其中引入了一个新的图抽象,即顶点和边带有特性的有向多重图,提供了一些基本运算子和优化了的Pregel API,来支援图计算。

4. 流式实时日志分析系统——《Spark 最佳实践》

我们将基于 Spark Streaming 流式计算框架,简单地实现一个类似于百度分析的系统。本教程源自图灵教育的《Spark 最佳实践》第6章第3节,感谢图灵教育授权实验楼释出。

5. Spark 基础之 DataFrame 基本概念学习

针对飞行准点率资料集,通过一些简单的分析任务来学习 DataFrame 的由来、构建方式以及一些常用操作。在本教程中,你可以了解到 Spark 生态体系中,核心的 RDD 与 DataFrame 之间的区别和联络。

6. Spark 基础之 DataFrame 高阶应用技巧

通过更加深入的讲解,使用真实的 SFPD 资料集,结合实际问题的分析过程,带你学习 DataFrame 的建立方式、常用操作、UDF 自定义函式 和重分割槽相关知识。

image

7. Spark 基础之 Streaming 快速上手

Spark Streaming 是 Spark 引擎的一种扩充套件,适用于实时处理流式资料。本教程将带你学习 Spark Streaming 的工作机制,了解 Streaming 应用的基本结构,以及如何在 Streaming 应用中附加 SQL 查询。

8. Spark 基础之 SQL 快速上手

你将可以学习到 Spark SQL 的基础概念,了解如何利用 SQL Context 及相关的 API 进行统计分析。最后还将通过一个分析股票价格与石油价格关系的例项,进一步学习如何利用 Spark SQL 分析资料。

9. Spark 基础之使用机器学习库 MLlib

你将可以学习到 Spark 的机器学习库—— MLlib 的相关知识,了解 MLlib 与 ML 之间的区别和联络,掌握 MLlib 中的几个基本资料型别。同时,还将通过一个电影推荐的例项,讲解如何利用机器学习算法解决实际问题。

10. Spark 基础之 SparkR 快速上手

学习 Spark 平台中对于 R 语言的支援前端——SparkR。教程将会讲解到如何在 SparkR 中建立和操作 DataFrame、如何执行 SQL 查询,以及如何利用机器学习相关的 API。

11. 使用 Spark 和 D3.js 分析航班大资料

将通过一个航班资料分析例项来学习 Spark 综合技巧和资料视觉化技术。在航班资料分析实验中,可以学习到如何使用 OpenRefine 进行简单的资料清洗,以及如何通过 Spark 提供的 DataFrame、 SQL 和机器学习框架等工具,对航班起降的记录资料进行分析,尝试找出造成航班延误的原因,以及对航班延误情况进行预测。

需要大资料基础资料,转发+私信小编“资料”即可获取

2019-09-06 16:54:00

相关文章