1 个回答
hdfs上常用的数据压缩格式有:
1、gzip压缩:压缩率比较高,而且压缩/解压速度也比较快;但是不支持split。当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。
2、lzo压缩:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式。一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。
3、snappy压缩:高速压缩速度和合理的压缩率;不支持split;压缩率比gzip要低。当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。
4、bzip2压缩:支持split;具有很高的压缩率,比gzip压缩率都高;压缩/解压速度慢。适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式。
发布于:3个月前 (01-24) IP属地:四川省
我来回答
您需要 登录 后回答此问题!