Hudi中Merge On Read表格式有什么特点?

提问者:帅平 问题分类:面试刷题
Hudi中Merge On Read表格式有什么特点?
1 个回答
烟波
烟波
Merge On Read简称MOR,使用列式存储(parquet)和行式存储(arvo)混合的方式来存储数据。更新时写入到增量(Delta)文件中,之后通过同步或异步的COMPACTION操作,生成新版本的列式格式文件。
Merge-On-Read表存在列式格式的Base文件,也存在行式格式的增量(Delta)文件,新到达的更新都会写到增量日志文件中(log文件),根据实际情况进行COMPACTION操作来将增量文件合并到Base文件上。
优点:
由于写入数据先写delta log,且delta log较小,所以写入成本较低。

缺点:
需要定期合并整理compact,否则碎片文件较多。读取性能较差,因为需要将delta log 和 老数据文件合并。
发布于:9个月前 (01-11) IP属地:未知
我来回答