在前面的文章里面,我们把flink基础的项目创建完成了,因此这里的话,我们开始进入实质的应用开发系列,本文的话,我们介绍下DataSet。
首先说下Dataset的应用场景,这里的Dataset一般的应用场景主要是针对于一批固定的数据做一次批处理。所以关于Dataset的任务运行是一次性的,而不是常驻在flink集群里面的。这种Dataset的job,常常与调度器进行配合使用,例如前面我们介绍的DolphinScheduler。
在Dataset里面,这种批处理的应用场景里面,他主要是可以实现数据集的转换(包括不仅限于过滤、连接、分组、映射等等),数据集从一个固定的来源出来,例如:本地文件、hdfs、集合等等,一次性接收这里面的数据进行进行数据集的转换ETL,然后把结果写入对应的存储中(本地文件、hdfs等)或者直接进行标准输出(例如:命令行输出)。
总结:
1、Dataset适用于一次性批处理的任务。
2、Dataset不常驻flink集群中,任务运行完毕即销毁。
3、Dataset除了开发调试阶段,生产环境一般都配合标准调度器来使用。
还没有评论,来说两句吧...