全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

如何在FlinkSQL中处理无界流数据的去重问题？

提问者：帅平问题分类：面试刷题

FlinkSQL面试题 Flink

发布于：6个月前 (05-29) IP属地：

3 个回答

等你许久

通过状态存储已处理数据的键，仅处理新数据。实现精确去重，需结合Checkpoint保证Exactly-Once。

-- 定义Keyed State（需Java/Scala实现）
public class DeduplicateState {
    private ValueState<Boolean> processedState;
    @Override
    public void open(Configuration parameters) {
        processedState = getRuntimeContext().getState(new ValueStateDescriptor<>("processed", Boolean.class));
    }
    public boolean isProcessed(String key) {
        return processedState.value() != null && processedState.value();
    }
    public void markProcessed(String key) {
        processedState.update(true);
    }
}

发布于：6个月前 (05-29) IP属地：

西瓜女皇

为每个键分配唯一序号，过滤重复项。

-- 保留每个用户最新的一条记录
SELECT 
    user_id, 
    event_time, 
    data
FROM (
    SELECT 
        *, 
        ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY event_time DESC) AS rn
    FROM clickstream
) 
WHERE rn = 1;

发布于：6个月前 (05-29) IP属地：

樱花下的编程者

在查询时直接去重，但需注意状态管理

-- 去重用户ID，按事件时间窗口聚合
SELECT 
    user_id, 
    COUNT(DISTINCT user_id) AS unique_users
FROM clickstream
GROUP BY TUMBLE(event_time, INTERVAL '1' MINUTE);

发布于：6个月前 (05-29) IP属地：

我来回答