1 个回答
主要是hash分桶策略,分桶的原则有:
高基数:选择唯一值多的列(如user_id),保证数据均匀分布。
查询模式:优先选择高频出现在WHERE或JOIN条件的列。
业务关联性:例如,订单表与用户表均按user_id分桶,加速关联查询。
分桶数量建议如下:数据量参考:单桶数据量建议在100MB~1GB之间。例如,1TB数据可设置1000个分桶(每个桶约1GB)。
集群规模:分桶数通常为BE节点数的整数倍(如4节点集群可设为8、12、16桶),充分利用并行度。
动态调整:可通过ALTER TABLE修改分桶数,但需重建数据(影响业务连续性)。
发布于:2周前 (05-21) IP属地:
我来回答
您需要 登录 后回答此问题!