大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

Flink系列（九）Flink开发如何添加数据源

Flink系列（九）Flink开发如何添加数据源

在flink的job开发过程中，我们整体会经历三个阶段，分别是：source -> Transform -> sink。今天我们就来介绍下这个source。在flink开发里面，不管是DataSet还是DataStr...

Rae flink系列2022-09-29804 阅读0 评论

Flink系列（八）Flink开发如何获取执行环境

热文Flink系列（八）Flink开发如何获取执行环境

我们在写flink的kob代码的时候，大家心理应该都有印象，第一步就是需要去获取一个flink的执行环境。例如在之前的代码里面我们是直接用的如下代码：StreamExecutionEnvironment enviro...

Rae flink系列2022-09-281014 阅读0 评论

Flink系列（七）Flink编程API对应的maven依赖关系

热文Flink系列（七）Flink编程API对应的maven依赖关系

目前我们编写flink程序有很多种实现方式，有java的，有scala的，有python的等等，这里我们介绍下针对于java方面，如果涉及到flink编程，那么哪些api对应使用哪些maven依赖呢？一、flink的...

Rae flink系列2022-09-281317 阅读0 评论

Flink系列（六）分析Flink的整体架构

Flink系列（六）分析Flink的整体架构

在前面几篇文章里面，我们介绍了flink的几种API操作数据，在这些简单的案例里面，我们可以看到flink的一些基础功能模块及实现效果。这篇文章我们剖析下flink的整体架构。不多说，先来一张flink的整体架构图在...

Rae flink系列2022-09-28968 阅读0 评论

Flink系列（五）如何生成flink的任务执行计划图

热文Flink系列（五）如何生成flink的任务执行计划图

在flink里面，我们编写了job之后，我们有时候需要了解下flink到底怎么执行的这个job。在原生的代码里面，我们写的代码量很少，很难看得出来具体的执行过程。所以在这里flink官方提供了一个可以直接可视化生成f...

Rae flink系列2022-09-281290 阅读0 评论

Flink系列（四）使用Table API处理有界数据流

热文Flink系列（四）使用Table API处理有界数据流

上一篇篇文章我们介绍下使用Table API 操作flink的无界数据流。这篇我们介绍下使用Table API操作flink的有界数据流。这里的Table API操作flink的有界数据流其实方式和DataSet操作...

Rae flink系列2022-09-281370 阅读0 评论

Flink系列（三）使用Table API处理无界数据流

Flink系列（三）使用Table API处理无界数据流

前两篇我们介绍了使用DataSet和DataStream api操作flink的数据流，这篇文章我们介绍下使用Table API 操作flink的无界数据流。这里的Table API操作flink的无界数据流其实方式...

Rae flink系列2022-09-28897 阅读0 评论

Flink系列（二）使用DtreamSet API处理无界数据流

Flink系列（二）使用DtreamSet API处理无界数据流

最近处于学习复盘的阶段，因此准备写一系列关于flink的实战相关的文章。今天介绍下第二篇，在flink中使用DataSTream API处理无界数据流。学习下基础知识1、DataStream API是flink里面做...

Rae flink系列2022-09-28819 阅读0 评论

Flink系列（一）使用DataSet API处理有界数据流

热文Flink系列（一）使用DataSet API处理有界数据流

最近处于学习复盘的阶段，因此准备写一系列关于flink的实战相关的文章。今天介绍下第一篇，在flink中使用DataSet API处理有界数据流。学习下基础知识1、DataSet API是flink里面做批量计算的一...

Rae flink系列2022-09-281140 阅读0 评论

Flink学习系列（十）flink实战之使用文件数据操作flinksql

热文Flink学习系列（十）flink实战之使用文件数据操作flinksql

今天这篇文章给大家演示下flink的sql功能，之前我们介绍过，在flink中使用sql一共两种方式：第一种方式是：通过mysql这样的connector去读取数据库的数据，然后在程序里面使用transform进行数...

Rae flink系列2022-08-021411 阅读0 评论

Flink学习系列（九）flink的cdc介绍

热文Flink学习系列（九）flink的cdc介绍

承接上篇《Flink学习系列（八）flink的transform介绍》。之前的文章我们已经介绍过了flink的一些简单应用，从这篇开始，我们会开始介绍一些flink的进阶知识点。本篇我们介绍下flink的cdc操作。...

Rae flink系列2022-06-294855 阅读0 评论

Flink学习系列（八）flink的transform介绍

热文Flink学习系列（八）flink的transform介绍

承接上篇《Flink学习系列（七）自定义实现一个flink的mysqlsink》。我们介绍了flink是一个分布式计算框架。在之前我们介绍了flink的datasource和flink的sink。目前还剩下的就是fl...

Rae flink系列2022-06-292062 阅读0 评论

Flink学习系列（七）自定义实现一个flink的mysqlsink

热文Flink学习系列（七）自定义实现一个flink的mysqlsink

承接上篇《Flink学习系列（六）介绍下flink的sink》。这篇我们自定义的实现一个mysql的sink。这里我们还是使用之前的user表。1）、创建一个mysqlsink类package com.big.dat...

Rae flink系列2022-06-291432 阅读0 评论

Flink学习系列（六）介绍下flink的sink

Flink学习系列（六）介绍下flink的sink

承接上篇《Flink学习系列（五）如何自定义实现一个flink的connector》。前几篇文章我们介绍了flink的datasource。我们介绍过flink是一个分布式计算处理框架。他重在的是计算。但是他又需要依...

Rae flink系列2022-06-29966 阅读0 评论

Flink学习系列（五）如何自定义实现一个flink的connector

热文Flink学习系列（五）如何自定义实现一个flink的connector

承接上篇《Flink学习系列（四）flink的datasource之自定义mysql的connector》。我们在实际的生产业务中，有时候我们读取的数据源是没有现成的connector连接器的，那么我们又需要读取到对...

Rae flink系列2022-06-291060 阅读0 评论