Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以
4月初,Apache Hudi 发布了 0.8 版本,这个版本供解决了 97 个 ISSUES,下面简单介绍一下这个版本的迁移以及重要特性。
迁移指南
•如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。
•如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)
•HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。鼓励用户从不建议使用的方法中迁移出来,因为这些方法将从0.9.0中删除。
Flink 集成
自从 0.7.0 版本首次支持 Hudi Flink Writer 以来,Hudi 社区在改善 Flink/Hudi 集成方面取得了很大的进展,包括重新设计具有更好性能和可伸缩性的 Flink writer 管道、Flink 支持写 MOR 表、批量读取 COW&MOR 表、流式读取 MOR 表以及 使用 Flink 读写(source and sink) Hudi 的连接器。在 0.8.0 版本中,用户可以使用 Flink 1.11+ 的所有这些特性。
请参阅 RFC-24[1] 了解 Flink writer 的更多实现细节,同时可以参考这个来快速在 Flink 中使用 Hudi。
并行写支持
根据许多用户的要求,现在 Hudi 通过乐观并发控制支持多个 writers 到同一个 Hudi 表。Hudi 支持文件级 OCC,也就是说,对于发生在同一个表上的任意2个提交(或写入者),如果没有对相同的文件进行修改,那么两个写入操作都可以成功。这个特性目前还处于实验阶段,需要Zookeeper或HiveMetastore来获取锁。
请参阅 RFC-22[2] 了解更多实现细节,同时可以参考这个来了解 Hudi Tables 的并发控制。
写端的改进
•Flink writer client 支持 InsertOverwrite;
• writer client 支持 CopyOnWriteTable。
查询端的改进
•支持使用 Spark Structured Streaming 读取 Hudi 表;
•Metadata table 的性能有所提升;
•Clustering 的性能有所提升。
其他
https://github.com/apache/hudi/releases/tag/release-0.8.0
Apache Hudi 0.8.0 Releases Note:http://hudi.apache.org/releases.html
引用链接
[1] RFC-24: https://cwiki.apache.org/confluence/display/HUDI/RFC+-+24%3A+Hoodie+Flink+Writer+Proposal
[2] RFC-22: https://cwiki.apache.org/confluence/display/HUDI/RFC+-+22+%3A+Snapshot+Isolation+using+Optimistic+Concurrency+Control+for+multi-writers
声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!
时间:2021-04-27 19:39 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [数据挖掘]大数据凉凉了?Apache将一众大数据开源项目束之
- [数据挖掘]盘点2020年晋升为Apache TLP的大数据相关项目
- [数据挖掘]深入分析 Flink SQL 工作机制
- [数据挖掘]Apache Spark 3.0.0 正式版终于发布了,重要特性全面
- [数据挖掘]一篇文章带你逆袭 Kafka
- [数据挖掘]Apache Doris在美团外卖数仓中的应用实践
- [数据挖掘]5000 字带你快速入门 Apache Kylin
- [数据挖掘]最新消息!Cloudera 全球发行版正式集成 Apache Fl
- [数据挖掘]Apache2019年度报告出炉,HBase、Flink、Beam成最活跃
- [数据挖掘]Apache Spark 3.0 预览版正式发布,多项重大功能发布
相关推荐:
网友评论:
最新文章
热门文章