Mapreduce实战案例(五)实现自定义排序 本文我们介绍下使用mapreduce进行排序的实战案例。在实际的场景中,排序是一个硬性的需求,所以我们在mapreduce中需要来实现这个排序功能。在mapreduce中,排序会发生在map阶段,因此这里的话,我们需... Rae /hadoop系列 /2023-05-30 /0 评论 /276 阅读
Mapreduce实战案例(四)自定义实现输入类型 在上一篇文章《Mapreduce实战案例(三)实现reduce端join》中,map里面我们是先把数据转化成了json,然后再转换成string,然后再把string放入到text类型里面进行向reduce传递的,如... Rae /hadoop系列 /2023-05-29 /0 评论 /359 阅读
Mapreduce实战案例(三)实现reduce端join 在上一篇文章《Mapreduce实战案例(二)实现map端join》我们实现了在map端进行join,这篇文章的话,我们演示下实现在reduce端做join。在reduce端进行join的时候,我们主要实现的逻辑如下... Rae /hadoop系列 /2023-05-29 /0 评论 /307 阅读
Mapreduce实战案例(二)实现map端join 在常见的数据分析中,我们经常会使用到join相关的数据关联性操作,所以对于传统型的mysql来说,我们只需要编写相关的join的sql语句即可,例如下面我们列举一个学校和学生的数据关系的场景:学校的数据如下:{&qu... Rae /hadoop系列 /2023-05-23 /0 评论 /390 阅读
Mapreduce实战案例(一)实现wordcount单词计数 在前面的文字我们介绍了很多hadoop相关的内容,这篇文字我们来演示下编写mapreduce的实战案例。这里实现的第一个案例是大家非常熟悉的wordcount计数程序,总体来说比较简单。下面我们直接演示:一、创建一个... Rae /hadoop系列 /2023-05-23 /0 评论 /333 阅读
分布式调度系统Apache DolphinScheduler系列(六)使用DolphinScheduler执行mapreduce任务 上一篇文章《分布式调度系统Apache DolphinScheduler系列(五)配置资源管理的文件存储》我们介绍了文件存储的配置,这篇文章我们演示下把mapreduce的job任务提交到DolphinSchedul... Rae /Dolphin系列 /2023-04-18 /0 评论 /593 阅读
Mapreduce任务提交到hadoop集群的时候报错:找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 把mapreduce的任务提交到yarn集群的时候,执行一直失败,直接报错:错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster错误信息如... 帅平 /大数据 /2023-04-18 /1 评论 /362 阅读
在第三方调度器里面使用hadoop jar命令提交mapreduce,yarn上看不到任务怎么办? 使用第三方的调度器提交mapreduce任务,提交的命令是hadoop jar xxxx,在调度器里面可以看到任务执行成功了,但是在yarn的8088 UI上看到这个job怎么办?... 帅平 /大数据 /2023-04-18 /1 评论 /226 阅读
MapReduce中的shuffle阶段,会涉及到哪些配置参数? MapReduce中的shuffle阶段,会涉及到哪些配置参数?... 帅平 /大数据 /2023-02-16 /1 评论 /195 阅读