Paimon介绍
在前面我们介绍过一些目前主流的数据湖相关的平台技术,例如:
Hudi Iceberg Delta Lake
这几个数据湖的技术上来说,Hudi目前在国内比较火,大家探讨或者平时接触的也会比较多一点,Iceberg和Delta Lake在国外的技术圈里面会比较火一点。但是这里我们不介绍这三种数据湖,而是介绍另外一个Apache Paimon。
Apache Paimon也是一个流数据湖平台,他的前身是Flink-table-store这个项目,这个数据湖的技术相对于Hudi,Iceberg,Delta Lake来说算是一个数据湖届的后期之秀。他支持高速数据摄取、变更数据跟踪和高效的实时分析。
Paimon数据架构
下面我们来看看Paimon的整体架构
从上图可以看到左侧是数据摄入,中间是Painmon及分布式文件系统,右侧是数据查询。
这里Painmon他只能算是一个数据湖的平台,Painmon本身是不存储数据的,他需要依赖分布式文件系统,例如:hdfs,oss,s3等文件系统来存储数据,他仅仅是在数据存储上面整合了数据读写及执行OLAP的能力。
Painmon数据摄取
我们这里介绍了Painmon是一个数据湖平台,那么对于数据湖来说,他肯定是需要采集数据的,也就是整体架构的前半部分数据摄入。在Paimon中目前支持的数据摄入主要是依赖其他的计算引擎来做数据读取,例如:Apache Flink,Apache Hive,Apache Spark,Trino等。在后面的文章里面我们会挨个介绍Painmon的数据摄取的详细操作。
Painmon数据存储
前面我们介绍了Painmon本身不存储数据,他只是架构在分布式文件系统上的一层湖技术。Painmon把数据从外部摄取回来之后,会以列式文件的形式存储在分布式文件系统(hdfs)或者存储对象(oss,s3)上。
Painmon数据查询
Painmon的数据查询也主要是在分布式文件系统活存储对象上进行数据查询,Painmon利用LSM树结构的形式来支持大量的数据高性能查询。
以上就是关于Painmon相关大致介绍,在后面的文章,我们会介绍更多详细的Painmon相关的知识。
还没有评论,来说两句吧...