全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

Hadoop3.x 和 Hadoop2.x 的主要区别有哪些？

提问者：Rae 问题分类：面试刷题

Hadoop面试题 Hadoop

发布于：2年前 (2025-01-24) IP属地：四川省

8 个回答

伤疤

Yarn的升级的区别：

1、Yarn的时间线服务是MRJobHistory的升级版，提供了在Yarn上运行第三方程序的历史支持，该服务在Hadoop3.0升级为第二版。
2、Yarn调度器现已可以通过配置实现用户自定义的资源管理。现在Yarn可以根据CPU和内存以外的资源管理其任务队列。

发布于：2年前 (2025-01-24) IP属地：四川省

穿越到古代找美女

HDFS实现服务器级别的Federation分流的区别：

对于HDFS Federation， 添加了一个对统一命名空间的RPC路由层 。 和原来的HDFS Federation没有变化，只是目前挂在管理不必在客户端完成，而是放在的服务器，从而简化了HDFS Federation访问。

发布于：2年前 (2025-01-24) IP属地：四川省

ε小可爱з

DataNode内部实现Balancer的区别：

一个DN管理多个磁盘，当正常写入时，多个磁盘是平均分配的。然而当添加新磁盘时，这种机制会造成DN内部严重的倾斜。之前的DataNode Balancer只能实现DN之间的数据平衡，Hadoop3.x实现了内部的数据平衡。

发布于：2年前 (2025-01-24) IP属地：四川省

蓝鲸少女与猫

添加对Microsoft Azure Data Lake的支持的区别：

1、Hadoop 2.x - HDFS（默认FS），FTP文件系统：它将所有数据存储在可远程访问的FTP服务器上。 Amazon S3（简单存储服务）文件系统Windows Azure存储Blob（WASB）文件系统。
2、Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系统。

发布于：2年前 (2025-01-24) IP属地：四川省

一生的爱意

支持两个以上的NameNode的区别：

HDFS NameNode高可用性的初始实现为单个Active NameNode 和 单个 Standby NameNode, 将edits复制到三个JournalNode。 该体系结构能够容忍系统中一个NN或者一个JN故障，解决了系统中NameNode的单点故障问题。但是，某些部署需要更高程序的容错能力，Hadoop3.x允许用户运行一个Active NameNode 和多个Standby NameNode来实现更高级别的容错。

发布于：2年前 (2025-01-24) IP属地：四川省

宁愿短发披肩

引入了新的API依赖区别：

1、之前Hadoop客户端操作的Maven依赖为hadoop-client，这个依赖直接暴露了Hadoop的下级依赖，当用户和Hadoop使用相同依赖的不同版本时，可能造成冲突。
2、Hadoop3.0引入了提供了hadoop-client-api 和hadoop-client-runtime依赖将下级依赖隐藏起来，一定程度上来解决依赖冲突的问题。

发布于：2年前 (2025-01-24) IP属地：四川省

娇喘界的扛把子

引入纠删码的区别：

1、HDFS为擦除编码(EC)提供了支持，以更有效地存储数据。与默认三个副本机制相比，EC策略可以节省约50%的存储空间。但不可忽略的是编解码的运算会消耗CPU资源。纠删码的编解码性能对其在HDFS中的应用起着至关重要的作用，如果不利用硬件方面的优化就很难得到理想的性能。英特尔的智能存储加速库（ISA-L）提供了对纠删码编解码的优化，极大的提升了其性能。
2、纠删码是hadoop3.x新加入的功能，之前的hdfs都是采用副本方式容错，默认情况下，一个文件有3个副本，可以容忍任意2个副本（datanode)不可用，这样提高了数据的可用性，但也带来了2倍的冗余开销。例如3TB的空间，只能存储1TB的有效数据。而纠删码则可以在同等可用性的情况下，节省更多的空间，以RS-6-3-1024K这种纠删码策略为例子,6份原始数据，编码后生成3份校验数据，一共9份数据，只要最终有6份数据存在，就可以得到原始数据，它可以容忍任意3份数据不可用。

发布于：2年前 (2025-01-24) IP属地：四川省

扎起头发是矫情

支持的最低java版本区别：

1、Hadoop3.x-java支持的最低版本为java8。
2、Hadoop2.x-java支持的最低版本为java7。

发布于：2年前 (2025-01-24) IP属地：四川省

我来回答