Flink如何处理迟到的数据?项目中是如何做的?

提问者:帅平 问题分类:面试刷题
Flink如何处理迟到的数据?项目中是如何做的?
1 个回答
望北海
望北海
Flink提供了多种机制处理迟到数据,基本上是围绕 Watermark、Allowed Lateness 和 Side Output,进行灵活处理。「迟到」本质上是一种乱序行为。在真实的场景中,如果你是非状态的计算,例如简单的ETL任务,那么一般是通过排序的方式保证「先来后到」。如果你是有状态的计算,那么大概率是通过「合理丢弃」的方式处理「迟到数据」,例如:通过event_time事件事件和当前时间对比过滤.
发布于:1个月前 (05-15) IP属地:
我来回答