大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

Hadoop系列（二十三）Mapreduce任务运行时的框架结构

Hadoop系列（二十三）Mapreduce任务运行时的框架结构

上一篇《Hadoop系列（二十二）简单实现一个统计单词个数的Mapreduce任务》我们简单的实现了一个mapreduce的任务，这篇文章我们介绍下mapreduce运行时的框架结构。在mapreduce提交到had...

Rae hadoop系列2023-02-13840 阅读0 评论

Hadoop系列（二十二）简单实现一个统计单词个数的Mapreduce任务

Hadoop系列（二十二）简单实现一个统计单词个数的Mapreduce任务

在前面我们介绍了mapreduce是一个分而治之的分布式计算框架，那么我们再编写程序的时候就会涉及到两部分，一部分是map，一部分是Reduce。下面我们简单的写一个用于单词个数统计的map job和 reduce ...

Rae hadoop系列2023-02-13938 阅读0 评论

Hadoop系列（二十一）Mapreduce介绍

Hadoop系列（二十一）Mapreduce介绍

在hadoop中除了hdfs之外，还有另外一个非常重要的组件就是Mapreduce。这是一个分而治之的分布式计算框架。在hadoop进程中，主要与ResourceManager和NodeManager进程相关。备注：...

Rae hadoop系列2023-02-13822 阅读0 评论

Hadoop系列（二十）Hdfs的回收站

热文Hadoop系列（二十）Hdfs的回收站

在hdfs上我们会涉及到删除文件的操作，索然有副本，但是删除文件的操作也会导致副本被删除，因此hdfs提供有回收站的功能，这样被删除的文件都会自动存储到回收站里面，后期想要恢复的话，可以直接从回收站里面进行恢复即可。...

Rae hadoop系列2023-02-101063 阅读0 评论

Hadoop系列（十九）Hdfs的快照创建与恢复

热文Hadoop系列（十九）Hdfs的快照创建与恢复

在hdfs上，所有的数据文件都会有备份的操作，主要是避免文件被删除。但是万一出现下面的情况怎么办呢？原本规划的/home/user/school/这个目录下是专门用来收集学校相关的数据，此时业务中有人误操作了，把交通...

Rae hadoop系列2023-02-101330 阅读0 评论

Hadoop系列（十八）DataNode的工作机制

Hadoop系列（十八）DataNode的工作机制

我们从前面的文章可以了解到DataNode主要是做数据存储的，这篇文章我们介绍下DataNode节点的工作机制。流程如下：1. ⼀个数据块在datanode上以⽂件形式存储在磁盘上，包括两个⽂件，⼀个是数据本身，⼀ ...

Rae hadoop系列2023-02-10813 阅读0 评论

Hadoop系列（十七）NameNode故障恢复

Hadoop系列（十七）NameNode故障恢复

在前面介绍了我们的SecondaryNameNode是辅助管理NameNode的，那么如果NameNode出现故障，那我们如何在使用SecondaryNameNode的fsimage和edits文件进行恢复呢？下面我...

Rae hadoop系列2023-02-10783 阅读0 评论

Hadoop系列（十六）secondarynameNode如何管理Fsimage与Edits⽂件

Hadoop系列（十六）secondarynameNode如何管理Fsimage与Edits⽂件

在前面我们介绍了元数据信息都是存储在fsimage和edits文件里面的，那么secondarynameNode是如何管理触发Fsimage与Edits⽂件的修改的。过程如下：1. secnonaryNN通知Name...

Rae hadoop系列2023-02-10810 阅读0 评论

Hadoop系列（十五）FSImage与edits详解

Hadoop系列（十五）FSImage与edits详解

在hdfs分布式文件系统中，所有的元数据信息都是保存在FsImage与Edits这两个文件中的，这两个文件记录了所有的数据的元数据信息。在生产环境中我们可以自定义配置，如下：1）配置文件为:hdfs-site.xml...

Rae hadoop系列2023-02-10848 阅读0 评论

Hadoop系列（十四）SecondaryNameNode的工作机制

热文Hadoop系列（十四）SecondaryNameNode的工作机制

上一篇《Hadoop系列（十三）NameNode的工作机制》介绍了NameNode的工作机制，这篇文章我们介绍下SecondaryNameNode的工作机制。如下：1. secondary namenode询问 na...

Rae hadoop系列2023-02-101061 阅读0 评论

Hadoop系列（十三）NameNode的工作机制

Hadoop系列（十三）NameNode的工作机制

hdfs的是一个主从结构的，因此作为master节点的角色就是NameNode，本文介绍下NameNode的工作机制，如下：1. 第⼀次启动namenode格式化后，创建fsimage和edits⽂件。如果不是第⼀次...

Rae hadoop系列2023-02-10805 阅读0 评论

Hadoop系列（十二）HDFS如何从DataNode上读取文件数据？

热文Hadoop系列（十二）HDFS如何从DataNode上读取文件数据？

前面《Hadoop系列（九）HDFS的数据文件是如何被写入DataNode?》我们介绍了文件数据写入到DataNode的过程，这篇文章我们介绍下从DataNode上读取文件数据的过程，如图：整个读取文件过程如下：1....

Rae hadoop系列2023-02-101173 阅读0 评论

Hadoop系列（十一）HDFS的副本存储选择之机架感知

Hadoop系列（十一）HDFS的副本存储选择之机架感知

hdfs副本存储的时候，默认是3个副本，那么hdfs集群是如何判断哪些副本存储在哪些节点上呢，这里就会提到我们的机架感知。在hadoop中，可以使用如下的命令来查看拓扑图：./hdfs dfsadmin -print...

Rae hadoop系列2023-02-10907 阅读0 评论

Hadoop系列（十）HDFS的节点距离

Hadoop系列（十）HDFS的节点距离

在Hadoop集群里面，所有的DataNode节点都是hdfs系统存储数据用，为了使存储数据和读取数据尽可能快，所以在网络拓扑里面两两节点之间都会建立联系，那么两个节点之间距离越近，则我们称为彼此近邻。那这个距离是怎...

Rae hadoop系列2023-02-10900 阅读0 评论

Hadoop系列（九）HDFS的数据文件是如何被写入DataNode?

热文Hadoop系列（九）HDFS的数据文件是如何被写入DataNode?

前面我们介绍了hdfs是分布式文件存储系统，所以那么数据文件是如何存储到DataNode节点的呢，这里我们先上一张图看看：这里我们从网上找的这张图片，完整的展示了整个数据文件是如何被写入到datanode节点上的。下...

Rae hadoop系列2023-02-101051 阅读0 评论