Spark中输出结果到文件系统里面,如何避免写很多小文件?

提问者:帅平 问题分类:大数据
Spark中输出结果到文件系统里面,如何避免写很多小文件?
1 个回答
ε小仙女з
ε小仙女з
写文件里面,出现很多小文件的根本原因是分区太多,因此我们为了避免出现大量的小文件,有以下两个办法解决
1、可以通过分区数量来控制生成文件的数量,从而间接控制文件大小。
2、使用 maxRecordsPerFile参数,通过它可以控制写入文件的记录数来控制文件大小。

对于第二个用法的示例如下:
df.write.option(“maxRecordsPerFile”, 5000)

这个案例代表的是每5000行数据保存为一个文件
发布于:2年前 (2022-12-12) IP属地:四川省
我来回答