1 个回答
Paimon的存储布局主要是通过分层存储、主键分区与多版本快照实现实时与批处理的统一管理。
1、分层存储
1、分层存储
Paimon 基于 LSM(Log-Structured Merge-Tree)实现分层存储,主要分为MemTable(内存层)和SSTable(磁盘层)
2、主键区分与数据分布1、主键为必选字段,用于唯一标识记录(如 order_id),支持高效 Upsert 和点查。
2、数据按主键哈希分桶(如 4 个桶),每个桶目录存储一个区间的哈希值数据。
3、支持为非主键字段(如 user_id)创建二级索引,加速条件查询。
3、多版本快照与时间旅行每次写入提交生成新快照(如 snapshot-5),记录新增/删除的文件列表。
流式场景下,快照可由 Flink Checkpoint 周期性触发生成。
增量快照:仅记录与前一个快照的差异文件(类似 Git 的 commit diff)。
过期管理:根据保留策略(如保留最近7天)自动删除旧快照。
发布于:2周前 (05-26) IP属地:
我来回答
您需要 登录 后回答此问题!