这里我们介绍下Hbase的集群搭建中服务器的选择,为什么呢?这主要是由于这个集群服务器的选择是一个非常重要的事情,但是却是很多团队几乎忽略的事情。要么上来就是很高的配置,要么就是拿一些很低的配置做一个集群。
大部分的团队在刚开始建设hadoop大数据体系的时候,一般都是3台低配服务器做一个hadoop集群,然后在这三台服务器上搭建一个hbase的集群。然后进行开发测试。在开发和测试阶段由于数据量少和调用业务量少的情况下测试这块没有任何问题,如果我们照搬到线上的话,那么此时可能刚开始还可以用,慢慢的就会出一些问题,例如:
1、api层客户端的响应出现超时的情况,而且越来越多。 2、RegionServer宕机的频率越来越高,并且恢复的时间也越来越长
如果生产上开始出现这些问题的时候,我们就要开始重视了,如果这些情况出现的频率越来越高,那线上生产环境就是一个定时炸弹,随时可能会导致生产环境的服务出现中断。此时就只能调优了。
那么我们本着解决问题不如预防问题的原则上来说,我们可以做的就是提前把可能出现的情况给规避掉。所以这里我们首先介绍下Hbase的集群规模评估。
所谓的规模评估,就是我们在生产应用hbase集群的时候,提前根据一些指标来评估我们的hbase集群的整体情况,对应的指标有:
硬件配置 存储配置 网络配置
下面我们挨个来介绍一下:
一、硬件
这里的硬件主要是指服务器的CPU和内存这两个部分,首先说说内存,一般来说,hbase的集群一般我们配置的堆内存在16GB以上就可以稳定的运行。同时还要给操作系统预留一些空间,所以我们建议的服务器内存配置在32GB起,有条件的团队,建议把服务器的内存配置为64GB或者128GB。如果在在线场景的业务下,此时读取频率非常高,那么我们可以把内存配置到256GB。
CPU的话,hbase其实对CPU的要求并不高,所以一般来说16核能够很好的支撑整个hbase集群。即使再打的并发,一般CPU也不用超过16核。所以CPU的选择我们一般选择16核即可。
二、存储
存储这里我们主要是用于硬盘,现在随着硬盘的成本越来越低,一般我们生产上都是用的ssd硬盘,如果不是一些超大规模的业务场景,其实普通的高速硬盘也满足要求了。但是有一个前提,就是服务器需要多挂载几个磁盘,然后给hbase配置多个目录。
备注:
1、存储这块主要介绍的是需要给服务器多配置几块硬盘,然后在hbase上多配置几个目录。 2、有条件的话可以选择ssd硬盘,当然最重要的是hbase其实对硬盘的要求和hadoop差不多,不需要太高。所以本着合理的原则,普通高速硬盘就够用的。 3、第一条备注是最重要的。
三、网络
对于hbase集群,一般来说我们部署的集群都会在整个内网里面,这样子的好处就是保证节点之间高效的通信及数据稳定快速的传输,所以对于网口来说,我们建议使用标准的千兆位网口即可。此时一般可以很轻松的应付大型及以下的任何业务场景。
除了网口之外还有交换机的选择,一般我们选择万兆的交换机即可。
以上我们就是从硬件、存储、网络这三个指标上来评估整个的hbase集群的服务器选择。这种选择只能作为一个参考意见,因为毕竟在大数据这个行业来说,由于业务的不同,那么要求也不同,然后具体的实施也可能出现不同。但是万变不离其宗,我们对于服务器的基本选择有一定的了解之后,对于我们实际的场景来说还是非常有参考意见的。
还没有评论,来说两句吧...