1 个回答
Flink提供了多种机制处理迟到数据,基本上是围绕 Watermark、Allowed Lateness 和 Side Output,进行灵活处理。「迟到」本质上是一种乱序行为。在真实的场景中,如果你是非状态的计算,例如简单的ETL任务,那么一般是通过排序的方式保证「先来后到」。如果你是有状态的计算,那么大概率是通过「合理丢弃」的方式处理「迟到数据」,例如:通过event_time事件事件和当前时间对比过滤.
发布于:1个月前 (05-15) IP属地:
我来回答
您需要 登录 后回答此问题!