1 个回答
Hudi查询数据主要有3种类型,分别是:
1、Snapshot Query
2、Incremantal Query
3、Read Optimized Query
1、Snapshot Query
读取所有Partition下每个FileGroup最新的FileSlice中的文件,Copy On Write表读Base(Parquet格式)文件,Merge On Read 表读Base(Parquet格式)文件+Log(Avro)格式文件,也就是说这种查询模式是将到当前时刻所有数据都读取出来,如果有更新数据,读取的也是更新后数据,例如:MOR模式下,读取对应的Base+Log文件就是读取当前所有数据更新后的结果数据。
2、Incremantal Query
无论Hudi表模式是COW或者是MOR模式,这种模式可以查询指定时间戳后的增量数据,需要由用户指定一个时间戳。
3、Read Optimized Query
这种模式只能查询列式格式Base文件中的最新数据。对于COW表模式,读取数据与Snapshot模式一样。对于MOR模式的数据,读取数据只会读取到Base文件列式数据,不会读取Log文件Avro格式数据。
发布于:1年前 (2024-01-11) IP属地:四川省
我来回答
您需要 登录 后回答此问题!