1 个回答

在shuffle阶段,可以看到数据通过⼤量的拷⻉,从map阶段输出的数据,都要通过⽹络拷⻉,发送到reduce阶段,这⼀过程中,涉及到⼤量的⽹络IO,如果数据能够进⾏压缩,那么数据的发送量就会少得多。
hadoop当中⽀持的压缩算法:
gzip、bzip2、LZO、LZ4、 Snappy ,这⼏种压缩算法综合压缩和解压缩的速率,⾕歌的Snappy是最优的,⼀般都选择Snappy压缩。
hadoop当中⽀持的压缩算法:
gzip、bzip2、LZO、LZ4、 Snappy ,这⼏种压缩算法综合压缩和解压缩的速率,⾕歌的Snappy是最优的,⼀般都选择Snappy压缩。
发布于:2年前 (2023-02-16) IP属地:四川省
我来回答
您需要 登录 后回答此问题!