全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

有了分区表为什么还要用分桶表？

提问者：帅平问题分类：面试刷题

有了分区表为什么还要用分桶表？

数据仓库面试题

发布于：2年前 (2025-02-08) IP属地：四川省

1 个回答

得治

主要原因有：

1、获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。
2、使取样( sampling)更高效。在处理大规模数据集时，在开发和修改査询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

分桶是相对分区进行更细粒度的划分。分桶将表或者分区的某列值进行hash值进行区分，如要安装name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。
与分区不同的是，分区依据的不是真实数据表文件中的列，而是我们指定的伪列，但是分桶是依据数据表中真实的列而不是伪列

发布于：2年前 (2025-02-08) IP属地：四川省

我来回答