Flink应用开发系列(三十四)DataStream开发之时间窗口
在实际的业务场景开发中,我们经常会涉及到这样的一些业务,例如风控系统的需求:某个用户在5分钟之内登录失败超过3次,那么就要进行预警与账号封禁这个需求就是只统计以5分钟为单位的一段时间内的数据,所以整个时间是一段一段的...
在实际的业务场景开发中,我们经常会涉及到这样的一些业务,例如风控系统的需求:某个用户在5分钟之内登录失败超过3次,那么就要进行预警与账号封禁这个需求就是只统计以5分钟为单位的一段时间内的数据,所以整个时间是一段一段的...
在flink中,我们之前介绍过Dataset是一种批模式,但是在官方的flink api文档里面可以看到dataset已经在1.17版本的时候过时了,在flink的1.18版本中,已经没有dtaaset的单独模块介绍...
在flink datastream 应用程序开发中,我们知道这里的source数据是从外部读取到的。这里我们回想一下kafka的客户端,我们在使用kafka客户端的时候,会发现,当我们push数据的时候,数据首先被推...
在flink datastream api的应用程序开发中,我们必然会使用到检查点,也就是checkpoint,在flink datastream应用程序开发中,checkpoint是默认关闭的,在准备运行到生产环境...
在前面我们介绍过flink的transformation算子中有一个iterate函数。这是一个迭代,就是把一个数据源输出到另一个数据源中,形成一个反复的循环。所以本文的话,我们来演示一下这个循环是怎么使用的。本文的...
在本站之前的文章也介绍过相关的自定义sink,可参考《Flink学习系列(七)自定义实现一个flink的mysqlsink》。在实际使用过程中,我们只需要调用addsink方法把定义的sink添加进来即可。...
在datastream api的应用程序开发中,除了系统自带的source之外,系统还自带一些sink,本文的话,我们就介绍下系统自带的sink。1)writeAsText() 将元素以字符串的形式写入文本文件。示例...
在前面我们介绍过Flink Datastream api开发中主要的三个基本组成:source etl sink这里的etl就是指对数据的处理,我们需要依靠flink api里面的Transformation算子进行...
在flink datastream中进行应用开发的时候,除了使用系统自带的source之外,我们还可以自定义source,然后使用StreamExecutionEnvironment.addSource(source...
在flink DataStream应用开发中,source是咱们程序读取数据的地方。在flink 自带的api里面,提供了一些自带的source,我们可以很方便的使用,下面我们介绍下flink应用程序自带的sourc...
前面的文章《Flink应用开发系列(二十三)DataStream概念介绍》我们对DataStream做了一个基础的介绍,对于整个开发来说,我们首先还是介绍一个wordcount,来看看整个flink DataStre...
前面的文章我们大致的介绍完了flink中关于Dataset部分的应用开发知识点,从本文开始我们来介绍下Flink的DataStream相关的内容。DataStream API在flink应用开发中属于一种流式处理,他...
在flink的Dataset开发中,我们可以从外部读取数据源,此时在线上的集群运行中,读取数据源之后,会为任务拆分多个task任务,此时有的task可能拿到的数据比较多,计算时间比较久,有的task可能拿到的数据比较...
在flink的开发中,我们经常还会涉及到这样一个函数,就是union函数,他主要是把两个数据源合并到1个新的数据源里面去,如果这两个数据源里面有相同的数据,合并后的数据就会出现两份,下面我们用案例来演示下,完整代码示...
在flink开发中,我们经常也会涉及到多数据源,此时我们需要把多数据源的数据进行join操作,合并到一起,所以本文的话,我们介绍下join函数。join函数需要根据某个key进行join,两边数据源都要有对应的key...