热文分布式调度系统Apache DolphinScheduler系列(三)配置datax的全量同步 上一篇文章《分布式调度系统Apache DolphinScheduler系列(二)DolphinScheduler伪集群安装》我们搭建了一个Apache DolphinScheduler伪集群,这里我们来实战一下,配... RaeDolphin系列2023-04-062720 阅读0 评论
热文分布式调度系统Apache DolphinScheduler系列(二)DolphinScheduler伪集群安装 上一篇文章《分布式调度系统Apache DolphinScheduler系列(一)DolphinScheduler介绍》我们做了一个初步的介绍。在Apache DolphinScheduler的官网里面,介绍了好几种... RaeDolphin系列2023-04-061742 阅读0 评论
热文分布式调度系统Apache DolphinScheduler系列(一)DolphinScheduler介绍 在日常的工作中,我们经常会涉及到调度系统,特别是在数据做ETL的时候,或者需要定时做某些操作的时候,这时候调度系统的需求就非常强烈。因此这里我们介绍下我们这边使用的分布式调度系统:Apache DolphinSche... RaeDolphin系列2023-04-061618 阅读0 评论
热文Flink流处理系列(八)Flink sql可视化平台flink-streaming-platform-web安装教程 在实际的工作中,我们对于内部做数据分析的业务场景里面,我们会使用到大量的flink sql,但是我们不需要写一条sql就编写一个flink sql job,因此我们会使用到可视化工具来完成这个任务,这篇文章我们介绍下... Raeflink系列2023-04-041366 阅读0 评论
热文Hadoop系列(二十八)Yarn介绍及yarn的优点 在hadoop2.x的版本开始,引入了yarn框架。这个框架主要是一个通用的资源管理和任务调度的平台,从hadoop2.x的版本开始,所有的mapreduce任务都运行在yarn上。当然在yarn上支持运行多种计算框... Raehadoop系列2023-04-031007 阅读0 评论
热文Flink系列(二十八)CEP(复杂事件处理 Complex Event Processing) 在flink流处理过程中,我们经常会遇到事件处理,例如双十一的时候,经过flink流处理的实时统计数据大盘,例如在业务系统的在线流风控系统等等业务场景,这时候我们一般会在flink中去读取流然后做我们想要操作的业务规... Raeflink系列2023-03-171422 阅读0 评论
热文Flink流处理系列(七)使用flink的CEP复杂事件,实现用户登录的风控预警 这篇文章我们继续开启Flink流处理的实战环节,这篇文章我们利用Flink的CEP复杂事件来实现用户登录的风控预警。首先简要的介绍下CEP,CEP可以看做是flink中专门用于处理复杂事件的规则触发器,他的执行流程是... Raeflink系列2023-03-171538 阅读0 评论
热文Flink流处理系列(六)flink实现多数据源水位线的inner join 在前面的文章我们主要介绍了flink多数据源的时间窗口,然后对数据进行计算,但是试想一下,真实的生产环境中我们经常多数据源都是乱序的,所以此时我们多个数据源拿过来进行join的时候,由于数据处理的延迟,会导致如下情况... Raeflink系列2023-03-131432 阅读0 评论
热文Flink流处理系列(五)flink实现多数据源的inner join 上一篇文章《Flink流处理系列(四)flink读取多数据源》我们介绍了在flink流处理中实现多数据源的读取。在实际的场景业务中,一般我们多数据源把数据读取进来之后,肯定不是直接转存到其他地方这么简单,一般的应用场... Raeflink系列2023-03-021692 阅读0 评论
热文Flink流处理系列(四)flink读取多数据源 上一篇文章《Flink流处理系列(三)flink cdc读取mysql binlog》我们介绍了一下使用flink的cdc来读取mysql。这篇文章我们的案例代码还是在上一篇的基础上改动即可。在实际的业务中,我们经常... Raeflink系列2023-03-012178 阅读0 评论
热文Flink流处理系列(三)flink cdc读取mysql binlog 这是flink流处理的第三篇文章,咱们介绍下使用flink的cdc功能,读取mysql的binlog实现数据同步。下面直接实战演示下:一、安装mysql安装mysql的话,,这里选择5.7或者8.x的版本都可以,建议... Raeflink系列2023-03-012990 阅读0 评论
热文Hadoop系列(二十七)Mapreduce的shuffle介绍 shuffle 是 Mapreduce 的核⼼,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。⼀般把从 Map 产⽣输出开始到 Reduce 取得数据作为输⼊之前的过程称作 shuffle。如... Raehadoop系列2023-02-161301 阅读0 评论
Hadoop系列(二十六)Mapreduce的ReduceTask编码及执行流程 上一篇文章《Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程》我们介绍了mapTask相关的编码及执行流程,这篇我们介绍下reduceTask的编码和执行流程。一、ReduceTask的编码... Raehadoop系列2023-02-16944 阅读0 评论
Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程 前面我们介绍了mapreduce的几个阶段对应的内容,这篇文章我们介绍下MapTask的编码及MapTask的执行流程。一、MapTask的编码在map阶段做maptask编码的话,示例框架如下:package co... Raehadoop系列2023-02-16816 阅读0 评论
Hadoop系列(二十四)Mapreduce的三个阶段 在mapreduce的运行中,主要会涉及到3个阶段,分别是:1、map阶段 2、shuffle阶段 3、reduce阶段那么这三个阶段主要做了哪些操作呢?一、Map阶段map阶段主要分为2个步骤,分别是:1、设置 I... Raehadoop系列2023-02-14707 阅读0 评论