1 个回答
数据湖由四个主要组件组成:存储层、格式化层、计算层和元数据层。
数据湖文件格式更面向列,并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache Arrow。它是物理存储,实际文件分布在存储层上的不同存储桶中。数据湖文件格式有助于存储数据,在系统和处理框架之间共享和交换数据。这些文件格式具有其他功能,例如拆分能力和模式演变。
数据湖文件格式更面向列,并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache Arrow。它是物理存储,实际文件分布在存储层上的不同存储桶中。数据湖文件格式有助于存储数据,在系统和处理框架之间共享和交换数据。这些文件格式具有其他功能,例如拆分能力和模式演变。
发布于:6个月前 (06-17) IP属地:四川省
我来回答
您需要 登录 后回答此问题!