Iceberg与Hudi对比有哪些不同点?

提问者:帅平 问题分类:面试刷题
Iceberg与Hudi对比有哪些不同点?

 您阅读本篇文章共花了: 

1 个回答
不长发及腰
不长发及腰
Iceberg与Hudi对比不同点之处有:
1、Iceberg支持Parquet、avro、orc数据格式,Hudi支持Parquet和Avro格式。
2、Iceberg只支持一种表存储模式,就是有metadata file、manifest file和data file组成存储结构,查询时首先查找Metadata元数据进而过滤找到对应的 SnapShot对应的manifest files ,再找到对应的数据文件。Hudi支持两种表存储模式:Copy On Write(写时合并) 和Merge On Read(读时合并),查询时直接读取对应的快照数据。
3、对于处理小文件合并时,Iceberg只支持API方式手动处理合并小文件,Hudi对于小文件合并处理可以根据配置自动的执行。
4、Spark与Iceberg和Hudi整合时,Iceberg对SparkSQL的支持目前来看更好。Spark与Hudi整合更多的是Spark DataFrame API 操作。
5、关于Schema方面,Iceberg Schema与计算引擎是解耦的,不依赖任何的计算引擎,而Hudi的Schema依赖于计算引擎Schema。
发布于:3个月前 (01-31) IP属地:未知
我来回答