正文

Flink应用开发系列（三）DataSet概念介绍

Rae V管理员 /2023-08-02/1.11 K阅读/0评论

0802

此篇文章发布距今已超过1071天，您需要注意文章的内容或图片是否可用！

在前面的文章里面，我们把flink基础的项目创建完成了，因此这里的话，我们开始进入实质的应用开发系列，本文的话，我们介绍下DataSet。

首先说下Dataset的应用场景，这里的Dataset一般的应用场景主要是针对于一批固定的数据做一次批处理。所以关于Dataset的任务运行是一次性的，而不是常驻在flink集群里面的。这种Dataset的job，常常与调度器进行配合使用，例如前面我们介绍的DolphinScheduler。

在Dataset里面，这种批处理的应用场景里面，他主要是可以实现数据集的转换（包括不仅限于过滤、连接、分组、映射等等），数据集从一个固定的来源出来，例如：本地文件、hdfs、集合等等，一次性接收这里面的数据进行进行数据集的转换ETL，然后把结果写入对应的存储中（本地文件、hdfs等）或者直接进行标准输出（例如：命令行输出）。

总结：

1、Dataset适用于一次性批处理的任务。

2、Dataset不常驻flink集群中，任务运行完毕即销毁。

3、Dataset除了开发调试阶段，生产环境一般都配合标准调度器来使用。

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路