大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

分布式调度系统Apache DolphinScheduler系列（三）配置datax的全量同步

热文分布式调度系统Apache DolphinScheduler系列（三）配置datax的全量同步

上一篇文章《分布式调度系统Apache DolphinScheduler系列（二）DolphinScheduler伪集群安装》我们搭建了一个Apache DolphinScheduler伪集群，这里我们来实战一下，配...

Rae Dolphin系列2023-04-062866 阅读0 评论

分布式调度系统Apache DolphinScheduler系列（二）DolphinScheduler伪集群安装

热文分布式调度系统Apache DolphinScheduler系列（二）DolphinScheduler伪集群安装

上一篇文章《分布式调度系统Apache DolphinScheduler系列（一）DolphinScheduler介绍》我们做了一个初步的介绍。在Apache DolphinScheduler的官网里面，介绍了好几种...

Rae Dolphin系列2023-04-061875 阅读0 评论

分布式调度系统Apache DolphinScheduler系列（一）DolphinScheduler介绍

热文分布式调度系统Apache DolphinScheduler系列（一）DolphinScheduler介绍

在日常的工作中，我们经常会涉及到调度系统，特别是在数据做ETL的时候，或者需要定时做某些操作的时候，这时候调度系统的需求就非常强烈。因此这里我们介绍下我们这边使用的分布式调度系统：Apache DolphinSche...

Rae Dolphin系列2023-04-061721 阅读0 评论

Flink流处理系列（八）Flink sql可视化平台flink-streaming-platform-web安装教程

热文Flink流处理系列（八）Flink sql可视化平台flink-streaming-platform-web安装教程

在实际的工作中，我们对于内部做数据分析的业务场景里面，我们会使用到大量的flink sql，但是我们不需要写一条sql就编写一个flink sql job，因此我们会使用到可视化工具来完成这个任务，这篇文章我们介绍下...

Rae flink系列2023-04-041475 阅读0 评论

Hadoop系列（二十八）Yarn介绍及yarn的优点

热文Hadoop系列（二十八）Yarn介绍及yarn的优点

在hadoop2.x的版本开始，引入了yarn框架。这个框架主要是一个通用的资源管理和任务调度的平台，从hadoop2.x的版本开始，所有的mapreduce任务都运行在yarn上。当然在yarn上支持运行多种计算框...

Rae hadoop系列2023-04-031116 阅读0 评论

Flink系列（二十八）CEP（复杂事件处理 Complex Event Processing）

热文Flink系列（二十八）CEP（复杂事件处理 Complex Event Processing）

在flink流处理过程中，我们经常会遇到事件处理，例如双十一的时候，经过flink流处理的实时统计数据大盘，例如在业务系统的在线流风控系统等等业务场景，这时候我们一般会在flink中去读取流然后做我们想要操作的业务规...

Rae flink系列2023-03-171524 阅读0 评论

Flink流处理系列（七）使用flink的CEP复杂事件，实现用户登录的风控预警

热文Flink流处理系列（七）使用flink的CEP复杂事件，实现用户登录的风控预警

这篇文章我们继续开启Flink流处理的实战环节，这篇文章我们利用Flink的CEP复杂事件来实现用户登录的风控预警。首先简要的介绍下CEP，CEP可以看做是flink中专门用于处理复杂事件的规则触发器，他的执行流程是...

Rae flink系列2023-03-171621 阅读0 评论

Flink流处理系列（六）flink实现多数据源水位线的inner join

热文Flink流处理系列（六）flink实现多数据源水位线的inner join

在前面的文章我们主要介绍了flink多数据源的时间窗口，然后对数据进行计算，但是试想一下，真实的生产环境中我们经常多数据源都是乱序的，所以此时我们多个数据源拿过来进行join的时候，由于数据处理的延迟，会导致如下情况...

Rae flink系列2023-03-131515 阅读0 评论

Flink流处理系列（五）flink实现多数据源的inner join

热文Flink流处理系列（五）flink实现多数据源的inner join

上一篇文章《Flink流处理系列（四）flink读取多数据源》我们介绍了在flink流处理中实现多数据源的读取。在实际的场景业务中，一般我们多数据源把数据读取进来之后，肯定不是直接转存到其他地方这么简单，一般的应用场...

Rae flink系列2023-03-021785 阅读0 评论

Flink流处理系列（四）flink读取多数据源

热文Flink流处理系列（四）flink读取多数据源

上一篇文章《Flink流处理系列（三）flink cdc读取mysql binlog》我们介绍了一下使用flink的cdc来读取mysql。这篇文章我们的案例代码还是在上一篇的基础上改动即可。在实际的业务中，我们经常...

Rae flink系列2023-03-012300 阅读0 评论

Flink流处理系列（三）flink cdc读取mysql binlog

热文Flink流处理系列（三）flink cdc读取mysql binlog

这是flink流处理的第三篇文章，咱们介绍下使用flink的cdc功能，读取mysql的binlog实现数据同步。下面直接实战演示下：一、安装mysql安装mysql的话，，这里选择5.7或者8.x的版本都可以，建议...

Rae flink系列2023-03-013120 阅读0 评论

Hadoop系列（二十七）Mapreduce的shuffle介绍

热文Hadoop系列（二十七）Mapreduce的shuffle介绍

shuffle 是 Mapreduce 的核⼼，它分布在 Mapreduce 的 map 阶段和 reduce 阶段。⼀般把从 Map 产⽣输出开始到 Reduce 取得数据作为输⼊之前的过程称作 shuffle。如...

Rae hadoop系列2023-02-161404 阅读0 评论

Hadoop系列（二十六）Mapreduce的ReduceTask编码及执行流程

热文Hadoop系列（二十六）Mapreduce的ReduceTask编码及执行流程

上一篇文章《Hadoop系列（二十五）Mapreduce的MapTask编码及执行流程》我们介绍了mapTask相关的编码及执行流程，这篇我们介绍下reduceTask的编码和执行流程。一、ReduceTask的编码...

Rae hadoop系列2023-02-161031 阅读0 评论

Hadoop系列（二十五）Mapreduce的MapTask编码及执行流程

Hadoop系列（二十五）Mapreduce的MapTask编码及执行流程

前面我们介绍了mapreduce的几个阶段对应的内容，这篇文章我们介绍下MapTask的编码及MapTask的执行流程。一、MapTask的编码在map阶段做maptask编码的话，示例框架如下：package co...

Rae hadoop系列2023-02-16930 阅读0 评论

Hadoop系列（二十四）Mapreduce的三个阶段

Hadoop系列（二十四）Mapreduce的三个阶段

在mapreduce的运行中，主要会涉及到3个阶段，分别是：1、map阶段 2、shuffle阶段 3、reduce阶段那么这三个阶段主要做了哪些操作呢？一、Map阶段map阶段主要分为2个步骤，分别是：1、设置 I...

Rae hadoop系列2023-02-14785 阅读0 评论