全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

StarRocks中如何优化大表JOIN?

提问者：帅平问题分类：数据库

性能调优 StarRocks

发布于：1年前 (2025-04-29) IP属地：

5 个回答

爱你的小笨蛋

通过分析数据特点，合理设置JOIN顺序，先过滤再JOIN，示例如下：

-- 使用/*+ LEADING */ 提示指定JOIN顺序
SELECT /*+ LEADING(f d1 d2) */ 
    f.order_id, d1.user_name, d2.product_name
FROM fact_orders f
JOIN dim_users d1 ON f.user_id = d1.user_id
JOIN dim_products d2 ON f.product_id = d2.product_id
WHERE f.order_time > '2023-01-01';

发布于：1年前 (2025-04-29) IP属地：

我是小样

创建物化视图预先聚合数据，减少JOIN时的计算量，示例如下：

-- 创建物化视图
CREATE MATERIALIZED VIEW mv_order_summary
DISTRIBUTED BY HASH(user_id)
REFRESH ASYNC
AS SELECT 
    user_id, 
    COUNT(*) as order_count, 
    SUM(amount) as total_amount
FROM orders
GROUP BY user_id;
-- 使用物化视图进行JOIN
SELECT m.user_id, u.user_name, m.order_count, m.total_amount
FROM mv_order_summary m
JOIN users u ON m.user_id = u.user_id;

发布于：1年前 (2025-04-29) IP属地：

刂阝余己忄已

确保JOIN 条件使用了索引列，并尽量增加过滤条件，示例如下：

-- 在JOIN前增加过滤条件，减少JOIN的数据量
SELECT f.order_id, f.user_id, d.user_name
FROM fact_orders f 
JOIN (
    SELECT user_id, user_name 
    FROM dim_table 
    WHERE region = 'ASIA'
) d ON f.user_id = d.user_id
WHERE f.order_time > '2023-01-01';

发布于：1年前 (2025-04-29) IP属地：

待我幼稚完

如果是需要频繁join两个大表的话，可以使用colocate join来减少数据传输，进而优化join查询，示例如下：

-- 创建Colocate组
CREATE COLOCATE GROUP group1;
-- 创建表时指定Colocate组，确保JOIN键分布一致
CREATE TABLE orders (
    order_id BIGINT,
    user_id BIGINT,
    order_time DATETIME,
    amount DECIMAL(10, 2)
) ENGINE=OLAP
DUPLICATE KEY(order_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 8
PROPERTIES (
    "colocate_with" = "group1"
);
CREATE TABLE users (
    user_id BIGINT,
    user_name VARCHAR(50),
    register_time DATETIME
) ENGINE=OLAP
DUPLICATE KEY(user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 8
PROPERTIES (
    "colocate_with" = "group1"
);

发布于：1年前 (2025-04-29) IP属地：

细腻长发姐

可以采用使用广播join的方式进行优化查询，通常这个小表小于1G，可以通过将小表广播到所有计算节点来优化join查询，示例如下：

SELECT /*+ BROADCAST(dim_table) */  f.order_id, f.user_id, d.user_name FROM fact_orders f  JOIN dim_table d ON f.user_id = d.user_id WHERE f.order_time > '2023-01-01';

发布于：1年前 (2025-04-29) IP属地：

我来回答