Spark 系列（五十五）：Spark Structured Streaming流处理的水印介绍

在使用spark流处理的时候，我们会经常涉及到时间窗口函数，但是由于生产环境中消息队列或者其他的数据源他不总是及时到达这条数据，举个例子：有一条10点10分产生的数据，他被及时的放入到了kafka里面，但是由于消费者或者其他跟不上等原因，这条数据结果是10点20分才到达消费者，此时这条数据按照常规业务来说，已经过了时间窗口（也就是在10点10分包含的时间段内应该被处理），此时这条数据不能被进入到新的时间窗口进行统计（也就是不能在10点20分这个时间断进行统计，如果统计的话数据就不对了），因此相当于这条数据我们就要被抛弃掉，此时我们就可以直接标记水印，spark的内部在进行流聚合的时候就会自动把这些数据删除掉。

设置水印还有一个问题，也就是及时的让数据被垃圾回收，避免集群内部出现内存不足的情况。

那么水印如何使用呢？其实就是短短的一句代码，如下：