全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

数据湖框架hudi、iceberg、paimon、Delta Lake应该根据什么场景选择使用哪个？

提问者：帅平问题分类：大数据

数据湖

发布于：2年前 (2024-06-17) IP属地：四川省

4 个回答

风迎面吹、泪却逆着飞

主要适用于数据实时更新/查询等低延时高效率的场景。和Flink生态集成最稳定。分钟级延时。这种直接选择Paimon

发布于：2年前 (2024-06-17) IP属地：四川省

刂阝余己忄已

主要是 Spark 引擎，并期望写入吞吐量相对较低。适用于需要快速查询数据，且数据需要频繁更新的场景。小时级别。这种直接选择Delta Lake

发布于：2年前 (2024-06-17) IP属地：四川省

冷心丿玫瑰

您使用各种查询引擎，并且需要灵活地管理变异数据集。请注意，支持工具和整体开发人员体验可能很粗糙。尽管可能，但安装和调整 Hudi 以应对真正的大规模生产工作负载也需要运营开销。如果您使用的是 Athena、Glue 或 EMR 等 AWS 托管服务 - Hudi 已经预先安装和配置，并且受AWS 支持。
这种直接选择Hudi，它适用于需要支持更新和删除操作的场景，以及自动高效小文件处理。分钟级延时。

发布于：2年前 (2024-06-17) IP属地：四川省

三岁就可萌了

您的主要痛点不是对现有记录的更改，而是在对象存储（超过 10k 个分区）上管理大型表的元数据负担。采用 Iceberg 将缓解与 S3 对象列表或 Hive Metastore 分区枚举相关的性能问题。相反，对删除和突变的支持仍处于初步阶段，并且存在与数据保留相关的操作开销。
这种直接选择Iceberg，它适用于需要大规模批量处理数据的场景。稳定性最好，功能性最齐全。小时级别延时。

发布于：2年前 (2024-06-17) IP属地：四川省

我来回答