APP下载

Amazon EMR现内建Hudi可简单操作单笔记录资料

消息来源:baojiabao.com 作者: 发布时间:2024-03-19

报价宝综合消息Amazon EMR现内建Hudi可简单操作单笔记录资料

AWS用户现在可以更方便地利用Amazon EMR来操作Amazon S3中储存的资料,用户只要在最新版本的Amazon EMR安装Hive、Spark或Presto任一元件,系统便会自动安装Apache Hudi,能对资料进行渐增处理,在纪录层级(Record-Level)执行插入、更新和删除。

过去AWS用户虽然可以使用Apache Spark、Hive和Presto之类的工具来处理和分析S3中的资料,但在部分使用情境下,资料操作仍有不少障碍,像是要符合隐私法规,执行使用者要求的被遗忘的权利,删除特定资料,或是更改资料被使用的方式,甚至是使用串流资料插入特定资料或是更新事件等,在Amazon EMR都没有一个有效的解决方案。

为了解决这个问题,AWS在Amazon EMR 5.28加入Apache Hudi,让用户不需要开发自定义的解决方案,以执行纪录层级的插入、更新和删除操作。Apache Hudi正在Apache孵化器中,由Uber在2016年时开发,是一个Spark函式库,Hudi为Hadoop Upserts anD Incremental的缩写,供使用者能够操作储存在Hadoop中的资料,解决资料撷取和ETL工作管线效率低落的问题。

AWS用户可以利用Hudi执行S3中的纪录层级的资料插入、更新和删除,应付各种需要个别对纪录进行增量更新的使用情境,也能建立资料集和资料表,并以Hudi管理低层的资料格式。Hudi使用Apache Parquet和Apache Avro进行储存,而这两种格式都已经在Spark、Hive和Presto中整合。

当用户启用Amazon EMR丛集的时候,只要安装Hive、Spark或Presto其中一种元件,系统便会自动安装并且配置Hudi,用户可以使用Spark建立新的Hudi资料集,并插入、更新和删除资料。AWS提到,Hudi资料集会在丛集配置的元储存中注册,因此Spark、Hive和Presto都可对资料集进行查询。

2019-11-19 16:50:00

相关文章