全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

ClickHouse如何对数据去重？

提问者：帅平问题分类：大数据

ClickHouse如何对数据去重？

ClickHouse

发布于：1年前 (2024-03-19) IP属地：未知

2 个回答

等你许久

使用ReplacingMergeTree引擎即可，ReplacingMergeTree引擎表会删除排序键值相同的重复项，排序键值就是建表时候跟在order by后面的字段。ck对更新不友好，性能很差，于是可以利用这个引擎，每次只管写入，不需要更新，ck会自动帮我们保存最新版本。建表语句如下：

CREATE TABLE test.test_local on cluster default_cluster (
    `id` UInt64,
    `type` Int32,
    `username` String,
    `password` String,
    `phone` String COMMENT '手机号账户',
    `nick` String,
    `mobile` String,
    `insert_time` DateTime DEFAULT '2023-07-31 00:00:00'
) ENGINE = ReplicatedReplacingMergeTree()
partition by dt
order by id;
CREATE TABLE test.test_all on cluster default_cluster as test.test_local ENGINE = Distributed('default_cluster', 'test', 'test_local', sipHash64(id));

接着只需要使用insert into进行数据的插入即可。

发布于：1年前 (2024-03-19) IP属地：未知

到头来只是玩笑一场

需要注意的事情是数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行，因此你无法预先作出计划。有一些数据可能仍未被处理。通常使用OPTIMIZE 语句手动触发，比如今天程序异常停止了，我启动了程序，大概率会有多个版本数据，这个时候需要手动合并一下：

OPTIMIZE table test.test_local on cluster default_cluster final;

这样会触发数据合并，这个过程耗费性能，正常情况下，如果没有多版本数据，不需要触发合并。如果没有触发，查询数据时候，会有多个版本，需要final关键字，查询时候合并一下，如果查询很多，将非常耗费性能，这个时候可以选择定期合并。

select * from test.test_all final where id = 10000

对于这种多个版本的表，有时候也是可以避开final的，比如去重，可以select distinct id from table，而不需要select distinct id from table final，这个final是可以省的，等等。

发布于：1年前 (2024-03-19) IP属地：未知

我来回答