Hudi中Copy On Write表格式有什么特点?

提问者:帅平 问题分类:面试刷题
Hudi中Copy On Write表格式有什么特点?
1 个回答
白鸥掠海
白鸥掠海
Copy On Write简称COW,在数据写入的时候,复制一份原来的拷贝,在其基础上添加新数据,生成一个新的持有base file (*.parquet,对应写入的instant time)的File Slice,数据存储格式为parquet列式存储格式。用户在读取数据时,会扫描所有最新的File Slice下的base file。
优点:
读取时只需要读取对应分区的一个数据文件即可,比较高效。

缺点:
数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时,且由于耗时,读请求读取到的数据相对就会滞后。
发布于:4个月前 (01-11) IP属地:未知
我来回答