Hadoop系列(二十三)Mapreduce任务运行时的框架结构 上一篇《Hadoop系列(二十二)简单实现一个统计单词个数的Mapreduce任务》我们简单的实现了一个mapreduce的任务,这篇文章我们介绍下mapreduce运行时的框架结构。在mapreduce提交到had... Raehadoop系列2023-02-13734 阅读0 评论
Hadoop系列(二十二)简单实现一个统计单词个数的Mapreduce任务 在前面我们介绍了mapreduce是一个分而治之的分布式计算框架,那么我们再编写程序的时候就会涉及到两部分,一部分是map,一部分是Reduce。下面我们简单的写一个用于单词个数统计的map job和 reduce ... Raehadoop系列2023-02-13859 阅读0 评论
Hadoop系列(二十一)Mapreduce介绍 在hadoop中除了hdfs之外,还有另外一个非常重要的组件就是Mapreduce。这是一个分而治之的分布式计算框架。在hadoop进程中,主要与ResourceManager和NodeManager进程相关。备注:... Raehadoop系列2023-02-13716 阅读0 评论
Hadoop系列(二十)Hdfs的回收站 在hdfs上我们会涉及到删除文件的操作,索然有副本,但是删除文件的操作也会导致副本被删除,因此hdfs提供有回收站的功能,这样被删除的文件都会自动存储到回收站里面,后期想要恢复的话,可以直接从回收站里面进行恢复即可。... Raehadoop系列2023-02-10944 阅读0 评论
热文Hadoop系列(十九)Hdfs的快照创建与恢复 在hdfs上,所有的数据文件都会有备份的操作,主要是避免文件被删除。但是万一出现下面的情况怎么办呢?原本规划的/home/user/school/这个目录下是专门用来收集学校相关的数据,此时业务中有人误操作了,把交通... Raehadoop系列2023-02-101238 阅读0 评论
Hadoop系列(十八)DataNode的工作机制 我们从前面的文章可以了解到DataNode主要是做数据存储的,这篇文章我们介绍下DataNode节点的工作机制。流程如下:1. ⼀个数据块在datanode上以⽂件形式存储在磁盘上,包括两个⽂件,⼀个是数据本身,⼀ ... Raehadoop系列2023-02-10718 阅读0 评论
Hadoop系列(十七)NameNode故障恢复 在前面介绍了我们的SecondaryNameNode是辅助管理NameNode的,那么如果NameNode出现故障,那我们如何在使用SecondaryNameNode的fsimage和edits文件进行恢复呢?下面我... Raehadoop系列2023-02-10698 阅读0 评论
Hadoop系列(十六)secondarynameNode如何管理Fsimage与Edits⽂件 在前面我们介绍了元数据信息都是存储在fsimage和edits文件里面的,那么secondarynameNode是如何管理触发Fsimage与Edits⽂件的修改的。过程如下:1. secnonaryNN通知Name... Raehadoop系列2023-02-10716 阅读0 评论
Hadoop系列(十五)FSImage与edits详解 在hdfs分布式文件系统中,所有的元数据信息都是保存在FsImage与Edits这两个文件中的,这两个文件记录了所有的数据的元数据信息。在生产环境中我们可以自定义配置,如下:1)配置文件为:hdfs-site.xml... Raehadoop系列2023-02-10740 阅读0 评论
Hadoop系列(十四)SecondaryNameNode的工作机制 上一篇《Hadoop系列(十三)NameNode的工作机制》介绍了NameNode的工作机制,这篇文章我们介绍下SecondaryNameNode的工作机制。如下:1. secondary namenode询问 na... Raehadoop系列2023-02-10952 阅读0 评论
Hadoop系列(十三)NameNode的工作机制 hdfs的是一个主从结构的,因此作为master节点的角色就是NameNode,本文介绍下NameNode的工作机制,如下:1. 第⼀次启动namenode格式化后,创建fsimage和edits⽂件。如果不是第⼀次... Raehadoop系列2023-02-10692 阅读0 评论
热文Hadoop系列(十二)HDFS如何从DataNode上读取文件数据? 前面《Hadoop系列(九)HDFS的数据文件是如何被写入DataNode?》我们介绍了文件数据写入到DataNode的过程,这篇文章我们介绍下从DataNode上读取文件数据的过程,如图:整个读取文件过程如下:1.... Raehadoop系列2023-02-101054 阅读0 评论
Hadoop系列(十一)HDFS的副本存储选择之机架感知 hdfs副本存储的时候,默认是3个副本,那么hdfs集群是如何判断哪些副本存储在哪些节点上呢,这里就会提到我们的机架感知。在hadoop中,可以使用如下的命令来查看拓扑图:./hdfs dfsadmin -print... Raehadoop系列2023-02-10808 阅读0 评论
Hadoop系列(十)HDFS的节点距离 在Hadoop集群里面,所有的DataNode节点都是hdfs系统存储数据用,为了使存储数据和读取数据尽可能快,所以在网络拓扑里面两两节点之间都会建立联系,那么两个节点之间距离越近,则我们称为彼此近邻。那这个距离是怎... Raehadoop系列2023-02-10811 阅读0 评论
Hadoop系列(九)HDFS的数据文件是如何被写入DataNode? 前面我们介绍了hdfs是分布式文件存储系统,所以那么数据文件是如何存储到DataNode节点的呢,这里我们先上一张图看看:这里我们从网上找的这张图片,完整的展示了整个数据文件是如何被写入到datanode节点上的。下... Raehadoop系列2023-02-10944 阅读0 评论