每天有百亿级别的数据需要写入Hbase,请问有什么好的办法?

提问者:帅平 问题分类:面试刷题
每天有百亿级别的数据需要写入Hbase,请问有什么好的办法?
1 个回答
影子爱人
影子爱人
每天百亿数据写入hbase的话,解决思路如下:
1、假设一整天60x60x24 = 86400秒都在写入数据,那么每秒的写入条数高达100万条,HBase当然是支持不了每秒百万条数据的, 所以这百亿条数据可能不是通过实时地写入,而是批量地导入。批量导入推荐使用BulkLoad方式,性能是普通写入方式几倍以上;
2、存入HBase:普通写入是用JavaAPI put来实现,批量导入推荐使用BulkLoad;
3、保证数据的正确:这里需要考虑RowKey的设计、预建分区和列族设计等问题;
4、还有region热点的问题,如果你的hbase数据不是那种每天增量的数据,建议跑个mapreduce对你的数据进行各评判,看看如何能将数据尽可能均匀的分配到每个region中,当然这需要预先分配region
发布于:3个月前 (01-24) IP属地:四川省
我来回答