在做数据仓库的时候,我们经常会涉及到对表进行分区,这些分区策略有:
按照用户进行分区,这里主要是hash分区 按照每日一个分区,这里主要是时间分区 按照每周一个分区,这里主要是时间分区 按照每月一个分区,这里主要是时间分区 按照每季一个分区,这里主要是时间分区 按照每年一个分区,这里主要是时间分区 等等....
对于时间分区在日常使用中是非常广泛的,那么我们如何来度量设计到底是采用每日一个分区,还是采用每月一个分区呢?这里给大家提供一个公式:
序号 | 总数据大小 | 每次新增数据量 | 建议分区策略 |
1 | 大于20G | 小于128M | 按照月或者年进行分区 |
2 | 大于20G | 大于128M | 按照日进行分区 |
3 | 10G到20G之间 | 小于128M | 按照月或者年进行分区 |
4 | 10G到20G之间 | 大于128M | 按照日进行分区 |
5 | 小于5G | 不固定 | 按照日进行分区 |
以上策略仅供参考。
还没有评论,来说两句吧...