Mapreduce实战案例(五)实现自定义排序 本文我们介绍下使用mapreduce进行排序的实战案例。在实际的场景中,排序是一个硬性的需求,所以我们在mapreduce中需要来实现这个排序功能。在mapreduce中,排序会发生在map阶段,因此这里的话,我们需... Raehadoop系列2023-05-30870 阅读0 评论
Mapreduce实战案例(四)自定义实现输入类型 在上一篇文章《Mapreduce实战案例(三)实现reduce端join》中,map里面我们是先把数据转化成了json,然后再转换成string,然后再把string放入到text类型里面进行向reduce传递的,如... Raehadoop系列2023-05-29993 阅读0 评论
Mapreduce实战案例(三)实现reduce端join 在上一篇文章《Mapreduce实战案例(二)实现map端join》我们实现了在map端进行join,这篇文章的话,我们演示下实现在reduce端做join。在reduce端进行join的时候,我们主要实现的逻辑如下... Raehadoop系列2023-05-29831 阅读0 评论
Mapreduce实战案例(二)实现map端join 在常见的数据分析中,我们经常会使用到join相关的数据关联性操作,所以对于传统型的mysql来说,我们只需要编写相关的join的sql语句即可,例如下面我们列举一个学校和学生的数据关系的场景:学校的数据如下:{"sc... Raehadoop系列2023-05-23887 阅读0 评论
Mapreduce实战案例(一)实现wordcount单词计数 在前面的文字我们介绍了很多hadoop相关的内容,这篇文字我们来演示下编写mapreduce的实战案例。这里实现的第一个案例是大家非常熟悉的wordcount计数程序,总体来说比较简单。下面我们直接演示:一、创建一个... Raehadoop系列2023-05-23709 阅读0 评论
热文分布式调度系统Apache DolphinScheduler系列(六)使用DolphinScheduler执行mapreduce任务 上一篇文章《分布式调度系统Apache DolphinScheduler系列(五)配置资源管理的文件存储》我们介绍了文件存储的配置,这篇文章我们演示下把mapreduce的job任务提交到DolphinSchedul... RaeDolphin系列2023-04-181378 阅读0 评论
Hadoop系列(二十七)Mapreduce的shuffle介绍 shuffle 是 Mapreduce 的核⼼,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。⼀般把从 Map 产⽣输出开始到 Reduce 取得数据作为输⼊之前的过程称作 shuffle。如... Raehadoop系列2023-02-16941 阅读0 评论
Hadoop系列(二十六)Mapreduce的ReduceTask编码及执行流程 上一篇文章《Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程》我们介绍了mapTask相关的编码及执行流程,这篇我们介绍下reduceTask的编码和执行流程。一、ReduceTask的编码... Raehadoop系列2023-02-16669 阅读0 评论
Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程 前面我们介绍了mapreduce的几个阶段对应的内容,这篇文章我们介绍下MapTask的编码及MapTask的执行流程。一、MapTask的编码在map阶段做maptask编码的话,示例框架如下:package co... Raehadoop系列2023-02-16550 阅读0 评论
Hadoop系列(二十四)Mapreduce的三个阶段 在mapreduce的运行中,主要会涉及到3个阶段,分别是:1、map阶段 2、shuffle阶段 3、reduce阶段那么这三个阶段主要做了哪些操作呢?一、Map阶段map阶段主要分为2个步骤,分别是:1、设置 I... Raehadoop系列2023-02-14475 阅读0 评论
Hadoop系列(二十三)Mapreduce任务运行时的框架结构 上一篇《Hadoop系列(二十二)简单实现一个统计单词个数的Mapreduce任务》我们简单的实现了一个mapreduce的任务,这篇文章我们介绍下mapreduce运行时的框架结构。在mapreduce提交到had... Raehadoop系列2023-02-13486 阅读0 评论