1 个回答
写文件里面,出现很多小文件的根本原因是分区太多,因此我们为了避免出现大量的小文件,有以下两个办法解决
对于第二个用法的示例如下:
这个案例代表的是每5000行数据保存为一个文件
1、可以通过分区数量来控制生成文件的数量,从而间接控制文件大小。
2、使用 maxRecordsPerFile参数,通过它可以控制写入文件的记录数来控制文件大小。
对于第二个用法的示例如下:
df.write.option(“maxRecordsPerFile”, 5000)
这个案例代表的是每5000行数据保存为一个文件
发布于:2年前 (2022-12-12) IP属地:四川省
我来回答
您需要 登录 后回答此问题!