Mapreduce实战案例(一)实现wordcount单词计数 在前面的文字我们介绍了很多hadoop相关的内容,这篇文字我们来演示下编写mapreduce的实战案例。这里实现的第一个案例是大家非常熟悉的wordcount计数程序,总体来说比较简单。下面我们直接演示:一、创建一个... Rae /hadoop系列 /2023-05-23 /0 评论 /360 阅读
Hadoop系列(三十)Yarn任务的提交流程介绍 上一篇文章《Hadoop系列(二十九)Yarn集群架构介绍》我们介绍了yarn集群的架构,这篇文章我们介绍下yarn任务提交的整个流程。首先来看看这个yarn提交的流程图:这里的话,整个client向yarn提交一个... Rae /hadoop系列 /2023-05-22 /0 评论 /335 阅读
Hadoop系列(二十九)Yarn集群架构介绍 在前面的文字《Hadoop系列(二十八)Yarn介绍及yarn的优点》我们简单的介绍了一下yarn,这篇文字我们来介绍下yarn的集群架构,首先来一张yarn的图:从上图可以看出,整个yarn的集群架构包含如下的几个... Rae /hadoop系列 /2023-05-22 /0 评论 /398 阅读
Hadoop安装配置篇(三)配置FairScheduler公平调度器 在hadoop集群里面,我们一般会使用yarn做资源管理器,所以这里的话,我们需要为hadoop集群配置调度器,在hadoop上,有三种调度器,分别是:FIFO 先进先出调度器Capacity ... Rae /hadoop系列 /2023-04-18 /0 评论 /415 阅读
Hadoop安装配置篇(二)配置hadoop关闭掉hdfs权限验证 在hadoop集群环境里面,我们经常会涉及到使用其他系统来操作hadoop集群里面的hdfs,例如:spark要向hdfs写入文件,我们可能使用不同的用户操作hdfs的api,等等。在hadoop中,默认是开启了权限... Rae /hadoop系列 /2023-04-17 /0 评论 /664 阅读
热文Hadoop安装配置篇(一)Hadoop3.3.5单机版安装教程 最近为了做DolphinScheduler的演示,因此需要一套大数据的环境,因此记录下这些大数据组件的安装。首先我们需要安装一个hadoop的环境,这里我们使用的hadoop版本是3.3.5,因此在192.168.3... Rae /hadoop系列 /2023-04-14 /0 评论 /1116 阅读
Hadoop系列(二十八)Yarn介绍及yarn的优点 在hadoop2.x的版本开始,引入了yarn框架。这个框架主要是一个通用的资源管理和任务调度的平台,从hadoop2.x的版本开始,所有的mapreduce任务都运行在yarn上。当然在yarn上支持运行多种计算框... Rae /hadoop系列 /2023-04-03 /0 评论 /454 阅读
Hadoop系列(二十七)Mapreduce的shuffle介绍 shuffle 是 Mapreduce 的核⼼,它分布在 Mapreduce 的 map 阶段和 reduce 阶段。⼀般把从 Map 产⽣输出开始到 Reduce 取得数据作为输⼊之前的过程称作 shuffle。如... Rae /hadoop系列 /2023-02-16 /0 评论 /510 阅读
Hadoop系列(二十六)Mapreduce的ReduceTask编码及执行流程 上一篇文章《Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程》我们介绍了mapTask相关的编码及执行流程,这篇我们介绍下reduceTask的编码和执行流程。一、ReduceTask的编码... Rae /hadoop系列 /2023-02-16 /0 评论 /318 阅读
Hadoop系列(二十五)Mapreduce的MapTask编码及执行流程 前面我们介绍了mapreduce的几个阶段对应的内容,这篇文章我们介绍下MapTask的编码及MapTask的执行流程。一、MapTask的编码在map阶段做maptask编码的话,示例框架如下:package&nb... Rae /hadoop系列 /2023-02-16 /0 评论 /282 阅读