1 个回答
具体的措施有:
1、合理分桶,避免小文件或数据倾斜
5、读取时仅读取必要列
6、预聚合结果写入 Paimon:减少实时查询计算开销
7、启用 HTTP/2:减少 S3 请求延迟。
1、合理分桶,避免小文件或数据倾斜
-- 创建表时分桶数与 Flink 并行度一致(如4)
CREATE TABLE s3_table (...) WITH ('bucket' = '4');
2、增大内存缓冲区,执行批量写入-- Flink 写入参数
SET 'sink.buffer-flush.max-rows' = '100000'; -- 内存缓存行数
SET 'sink.buffer-flush.interval' = '5m'; -- 刷盘间隔
3、冷热数据分层#将近期数据保留在 SSD 或云盘
ALTER TABLE s3_table SET ('storage-policy' = 'SSD:7d, S3:365d');
4、使用ORC/Parquet 格式优化5、读取时仅读取必要列
6、预聚合结果写入 Paimon:减少实时查询计算开销
7、启用 HTTP/2:减少 S3 请求延迟。
SET 's3.http-client.protocol' = 'HTTP/2';
发布于:2周前 (05-26) IP属地:
我来回答
您需要 登录 后回答此问题!