Apache Paimon 系列（一）：Paimon 介绍

Paimon介绍

在前面我们介绍过一些目前主流的数据湖相关的平台技术，例如：

Hudi
Iceberg
Delta Lake

这几个数据湖的技术上来说，Hudi目前在国内比较火，大家探讨或者平时接触的也会比较多一点，Iceberg和Delta Lake在国外的技术圈里面会比较火一点。但是这里我们不介绍这三种数据湖，而是介绍另外一个Apache Paimon。

Apache Paimon也是一个流数据湖平台，他的前身是Flink-table-store这个项目，这个数据湖的技术相对于Hudi,Iceberg,Delta Lake来说算是一个数据湖届的后期之秀。他支持高速数据摄取、变更数据跟踪和高效的实时分析。

Paimon数据架构

下面我们来看看Paimon的整体架构

从上图可以看到左侧是数据摄入，中间是Painmon及分布式文件系统，右侧是数据查询。

这里Painmon他只能算是一个数据湖的平台，Painmon本身是不存储数据的，他需要依赖分布式文件系统，例如：hdfs，oss，s3等文件系统来存储数据，他仅仅是在数据存储上面整合了数据读写及执行OLAP的能力。

Painmon数据摄取

我们这里介绍了Painmon是一个数据湖平台，那么对于数据湖来说，他肯定是需要采集数据的，也就是整体架构的前半部分数据摄入。在Paimon中目前支持的数据摄入主要是依赖其他的计算引擎来做数据读取，例如：Apache Flink，Apache Hive，Apache Spark，Trino等。在后面的文章里面我们会挨个介绍Painmon的数据摄取的详细操作。