APP下载

深入钻研大资料:OSS和EMR入门

消息来源:baojiabao.com 作者: 发布时间:2024-05-11

报价宝综合消息深入钻研大资料:OSS和EMR入门

在本文中,我们将准备好资料环境。设定大资料环境曾经是一件大事。如今,借助云技术,减少了流程数量,使事情变得更简单。本文介绍了阿里云的各种大资料解决方案,并向您展示了开始使用这些服务的步骤。

资料储存

大资料最基本的要求是储存。阿里云的物件储存服务(OSS)是一种基于云的储存服务,可帮助储存大量不同型别和不同来源的资料。它非常适合大量的多媒体档案。无论资料型别或访问频率如何,OSS都可以提供帮助。它甚至包括迁移工具,用于将资料从内部部署或第三方提供商迁移到OSS。

在阿里巴巴的主页上,转到“ 产品 ”选项卡,然后选择“ 储存” 下的“ 物件储存服务 ”。

点选立即购买。定价基于您储存的资料量。储存的越多,每单位成本就越少。阿里云提供高达5GB的免费储存空间。

同意启用OSS的条款和条件,您将看到Order Complete页面。

现在您可以开始建立用于E-MapReduce的储存桶。转到OSS控制台,然后单击Create Bucket。

在Create Bucket向导中,填写必要的详细资讯。让我们在命名转换中使用“ demo1 ” 的常量,在整篇文章中使用“ Singapore ”作为Region。

如果需要,请更改储存桶的配置。在左侧面板中,您将看到建立的储存桶。单击它并移至“ 基本设定”选项卡。

您可以在必要时更改配置。单击日志下的configure并启用日志。7OSS现在可以在启用日志的情况下使用。

资料处理

我的储存现在已经完成。对于资料处理,我们有两个主要的阿里云产品供您检视。

MaxCompute - 阿里巴巴处理大资料的平台

E-MapReduce - 用于管理和处理大资料的丰富框架

在本文中,我们将专注于使用阿里云的E-MapReduce的大资料

什么是E-MapReduce?

阿里巴巴云Elastic MapReduce,也称为EMR或E-MapReduce,提供完全托管服务,允许您在几分钟内为大资料应用程序建立Hadoop丛集。它建立在ECS之上,使用Apache Hadoop和Spark等开源工具(第一篇文章中介绍),它构成了E-MapReduce的核心,通过使用者友好的Web界面快速处理和分析大量资料。

为什么选择E-MapReduce?

E-MapReduce负责丛集建立和配置所需的大多数基本任务,同时提供用于管理和使用丛集的整合框架。它利用了Hadoop和Spark的全部功能,因此您无需从头开始配置Hadoop。它也基于Spark - 这意味着您甚至可以传输大量资料。它可以轻松地与阿里巴巴云的其他产品整合,如阿里巴巴弹性计算服务(ECS)和OSS。

什么是Hadoop丛集?

我们在第一篇文章中遇到了“Hadoop”这个术语。那么,什么是丛集?

甲簇是集合的节点,其中一个 节点是一个物理机上执行的程序。Hadoop丛集有两个主要优点。首先,你有大量的资料,你不能指望它是同质的。Hadoop丛集在这种情况下有所帮助,因为它将资料划分为块,每个节点并行处理资料。其次,大资料每天都在增长。因此,对于可能需要扩充套件的群集设定存在持续配置,即在需要时新增或移除群集中的节点。是的,Hadoop丛集也可以解决这个问题,因为它可以线性扩充套件。

Hadoop是一个主从模型,其中两个主要元件是:

主节点 - 群集由执行NameNode,Secondary NameNode和JobTracker的单个主节点 组成。NameNode储存HDFS的元资料。Secondary NameNode保留NameNode资料的备份,JobTracker使用MapReduce监视资料的并行处理

工作节点 - 丛集可以具有任意数量的工作节点。该元件执行DataNode,它储存实际资料和TaskTracker辅助的Task Tracker服务。

丛集的型别

单节点丛集 - 也称为伪分散式丛集,其中Namenode和Datanode在同一台计算机上执行。

多节点丛集 - 也称为分散式丛集,其中一个节点充当主节点,其他节点充当从节点。这些型别的群集的预设复制因子设定为3。

高可用性丛集 - 在标准配置中,NameNode成为单点故障,因为如果Namenode出现故障,整个丛集将变为不可用。不可用的原因可能是计划内或计划外事件。该丛集允许我们同时执行两个Namenode,即Active NameNode和Standby / Passive NameNode。如果一个NameNode发生故障,另一个NameNode将自动接管,从而减少丛集的停机时间。

在阿里巴巴,每个单个节点都是一个ECS例项,其中一个将是主例项,其他节点将是工作者/核心例项。大多数业务场景使用多节点丛集,因为需要处理和分析大量资料。

让我们在EMR中建立一个简单的丛集。

登入您的阿里云账户,点选右上角的“控制台”。这导致仪表板包含诸如使用的资源,计费等资讯。

在左侧,有各种导航图示。其中选择“产品”,并选择E-MapReduce进行分析。

这导致了EMR控制台

您需要预设的EMR角色才能开始使用该服务。如果您尚未进行此设定,您将看到如下所示的警告。

在这种情况下,单击“转到RAM”并通过单击“ 确认授权策略 ”设定预设EMR角色。

接下来,确保您有一个AccessKey。在右上角,将鼠标悬停在使用者名称上,然后从下拉列表中选择AccessKey。

忽略安全提示。单击“开始使用Sub User的AccessKey”将转到文件中心,您可以在其中找到开始的步骤

继续管理访问金钥并继续“建立访问金钥”

几秒钟后,您将看到建立的访问金钥。

现在已经设定了所有先决条件,请确定群集所在的区域。如果需要更好的网络连线,请将所有阿里巴巴产品放在同一区域。如前所述,我们将在整篇文章中使用“新加坡”。现在我的OSS和EMR在同一个位置。

现在点选“ 建立群集”。如果阿里巴巴要求任何其他角色授权,请继续进行设定,从而进一步建立群集。

阿里巴巴E-MapReduce提供了四种不同的丛集型别,如下所示:

Hadoop丛集:它提供各种大资料工具,如:

用于分散式储存和处理的Hadoop,Hive和Spark。

Spark Streaming,Flink和Storm构成了流处理系统。

Oozie和Pig负责处理和安排工作。

德鲁伊丛集:帮助实时互动式分析,以低延迟查询大量资料。与EMR Hadoop,EMR Spark和OSS合作,它提供实时解决方案。

资料科学丛集:专为大资料和人工智能场景配置的资料科学家更好的丛集,它还提供Tensor Flow模型。

Kafka丛集:高吞吐量和可扩充套件性的分散式讯息系统,提供完整的服务监控系统。

软件配置

目前,我们将建立一个Hadoop丛集。选择“Hadoop”。您将拥有一组所提及版本的必需服务。您还可以从可选服务中选择其他工具。

高安全性模式:在此模式下,您可以为预设情况下关闭的群集设定身份验证。完成软件配置后,单击“下一步”并转到“硬件配置”。

硬件配置

在“硬件设定”选项卡中,您可以设定群集所需的一些服务,如虚拟私有云(VPC),虚拟交换机(VSwitch)和安全组。

网络型别:选择区域时,将选择VPC和VSwitch .created。否则建立一个新的。

让我们建立一个新的VPC。移至VPC控制台并单击“建立VPC”

在VPC和VSwitch向导中,提供VPC的区域和名称,然后单击“确定”。

单击确定将开始建立VPC和VSwitch。您可以在ok位置看到“正在建立”。建立后,您可以看到下面的视窗。

点选完成。现在你已经建立了一个。如果您没有看到建立的,请单击“重新整理”。

建立VPC后,返回“硬件配置”页面,然后选择现在建立的页面。

如果您是第一次建立群集,则不会选择任何安全组。命名以建立新的安全组。

由于Hadoop是主从模型,因此请选择主服务器和核心例项的配置

还要选择核心例项的数量以确定资料节点的数量。这里我们给出了核心例项= 2,从而建立了一个多节点丛集。

完成后,您将看到以下估算的价格。基于此,您甚至可以更改例项型别和磁盘大小。最后,单击下一步。

基本配置

在此选项卡上,为丛集命名,设定日志路径(我们之前在OSS中设定)。

还授权角色并为群集设定密码,稍后我们将使用该密码来访问群集。一切都完成后,点选确定。在建立群集时放松几秒钟。现在回到EMR控制台,有你的丛集。

我们点选“管理”。您将看到预设启动的所有工具。您可以随时启动,停止,重新启动服务甚至监控它们。如果需要,新增安全性并新增额外服务。

构建丛集的最佳实践

要处理的资料量是决定每台机器的节点数和内存容量的关键。

使用预设配置执行作业,并观察所需的资源和时间。基于此继续增强丛集。

该丛集现已准备好迎接重大交易 - 准备好与大资料一起玩!

在下一篇文章中,我们将讨论资料来源和各种资料格式,以将资料摄取到我们的大资料环境中。

2019-12-24 07:51:00

相关文章