数据湖Table format是什么?

提问者:帅平 问题分类:大数据
数据湖Table format是什么?
1 个回答
呜咽少女
呜咽少女
Table Format 非常有吸引力,因为它们是数据湖上的数据库。与表相同,一种数据湖表格式将分布式文件捆绑到一张表中管理。可以将其视为物理数据文件布局之上的表视图抽象层。想象一下一次插入数百个文件,他们之前是什么关系,如何高效率的更新和查询。
Table format 这个概念最早由 Iceberg 提出,目前主流的 Table Format 有 Apache Hudi、Apache Iceberg 和 Delta Lake。,现在行业对它的理解主要有两点。
第一点是 Table format 定义了哪些文件可以构成一张表,这样 Apache Flink、Apache Spark、Trino、Apache Impala 等任何引擎都可以根据 Table format 去查询、检索数据。
第二点就是 Table format 规范了数据和文件的分布方式,任何引擎写入数据都要遵照这个标准,通过 format 定义的标准来支持以前 Hive 不支持的 ACID 和模式演进。

它们是上述其中一种开源数据湖文件格式,可优化列存储并高度压缩,数据湖表格式允许直接从数据湖中高效地查询数据,不需要进行转换。数据湖表格式是数据湖文件格式的引擎。文件格式擅长以压缩方式存储大数据并将其返回以进行面向列的分析查询,但是它们缺乏额外的特性,例如 ACID 事务和对关系数据库中每个人都知道的标准 ANSI SQL 的支持。借助数据湖表格式及其开源解决方案,我们可以获得这些想要的基本功能,并且还可以获得更多。
发布于:4个月前 (06-17) IP属地:四川省
我来回答