数据湖系列（七）Apache Hudi的介绍

Rae V管理员 /2022-12-20/1.21 K阅读/0评论

1220

此篇文章发布距今已超过970天，您需要注意文章的内容或图片是否可用！

在数据湖的解决方案里面，Delta Lake和Apache Hudi是目前非常火爆的两种数据湖的解决方案，前面我们介绍了Delta Lake，这篇文章我们介绍下Apache Hudi。

Apache Hudi 摄取并管理通过 DFS (hdfs 或云存储)存储的大型分析数据集。Hudi 为大数据带来了流处理，在提供新数据的同时，比传统的批处理效率高出一个数量级。

如果熟悉了前面的Delta Lake的话，那么学习起来Apache Hudi就非常快了。Apache Hudi有如下特点：

1、支持快速、可插入索引的 upsert。
2、支持回滚的原子发布数据。
3、写入器和查询之间的快照隔离。
4、保存点用于数据恢复。
5、使用统计管理文件大小和布局。
6、异步压缩行和列数据。
7、跟踪沿袭（lineage）的时间线元数据。
8、利用聚类优化数据湖布局。

在使用上，Apache Hudi与hdfs强依赖，我们可以看作是Apache Hudi是架构在hdfs上的一层数据中间件，底层数据还是存储在hdfs上的。

在框架上，Apache Hudi可以与Spark和Flink进行结合。相关的依赖版本如下：

Apache Hudi与Spark的版本对照表

Apache Hudi与Flink暂时没有对照表，几乎可以看做是天然支持。

职场就是一场游戏，但游戏不是人生的全部。别太纠结眼前的得失，也别总被焦虑绑住。努力让自己积累更多底气吧，未来的你一定会感谢现在的自己。因为那个时候，你会发现，人生的主动权，终于掌握在自己手里了。

-- 展开阅读全文 --

还没有评论，来说两句吧...