解释Paimon的数据生命周期管理机制

提问者:帅平 问题分类:面试刷题
解释Paimon的数据生命周期管理机制
1 个回答
走过的路
走过的路
Paimon中支持的数据生命周期管理有:
1、通过动态分区进行数据过期
-- 创建表时定义分区过期时间(保留30天)
CREATE TABLE user_logs (
    user_id STRING,
    event_time TIMESTAMP,
    dt STRING
) PARTITIONED BY (dt) WITH (
    'partition.expiration-time' = '30d',  -- 分区过期时间
    'partition.timestamp-pattern' = 'dt=yyyy-MM-dd'  -- 时间格式
);
2、通过分区进行数据冷热分离
ALTER TABLE user_logs SET (
    'storage-policy' = 'SSD:7d, HDD:30d, S3:365d'  -- 热数据存SSD,温数据存HDD,冷数据存S3
);
3、配置数据快照保留策略
ALTER TABLE user_logs SET (
    'snapshot.num-retained.min' = '10',  -- 至少保留10个快照
    'snapshot.num-retained.max' = '100'  -- 最多保留100个快照
);
4、限制时间旅行窗口
ALTER TABLE user_logs SET (
    'snapshot.time-retained' = '7d'  -- 仅允许查询最近7天的快照
);
发布于:2周前 (05-26) IP属地:
我来回答