1 个回答
Apache Paimon 是一种流式数据湖存储系统,其核心目标是实现高吞吐、低延迟的实时数据更新与查询。他的主要特点有:
1、流批一体的存储架构
1、流批一体的存储架构
Paimon 统一了批处理和流处理的数据存储范式,例如通过将 Apache Flink 的 changelog 机制与数据湖存储结合,既支持实时数据追加(类似 Kafka 的流式写入),又能像传统数据湖(如 Iceberg)一样处理批量更新。
2、高效的数据更新能力采用 LSM(Log-Structured Merge-Tree)结构实现 Merge-On-Read,通过主键(Primary Key)设计实现高效 Upsert。例如,在订单状态实时更新的场景中,Paimon 可以直接根据订单 ID 快速覆盖旧状态,无需全量重写分区数据。
3、实时增量查询优化通过自研的 FileStore 引擎,支持毫秒级延迟的增量快照读取。例如,用户可以通过 Flink SQL 直接查询过去 5 分钟内新增的数据变化,而无需触发全表扫描。
4、灵活的 Schema 演化允许动态添加列、修改字段类型(如将 INT 转为 BIGINT),且兼容 Hive Metastore。这种设计使得业务表结构变更时无需中断数据写入,例如在用户画像场景中新增标签字段时可直接扩展 Schema。
5、多引擎生态集成原生支持 Flink 作为计算引擎实现端到端实时数仓,同时兼容 Spark、Trino、Hive 等查询工具。例如可以通过 Spark 读取 Paimon 表进行离线分析,而同一份数据也能被 Flink 实时任务消费。
发布于:2周前 (05-26) IP属地:
我来回答
您需要 登录 后回答此问题!