Spark系列（五十）Spark sql应用程序调优涉及的参数信息

Rae V管理员 /2022-12-14/1.23 K阅读/0评论

1214

此篇文章发布距今已超过1236天，您需要注意文章的内容或图片是否可用！

在前面的文章我们介绍了很多spark sql相关的内容，这篇文章列举下在使用spark sql编写应用程序的时候，会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。

序号	参数	默认值	说明
1	spark.sql.files.maxPartitionBytes	134217728(128 MB)	在读取文件时，要塞进到单个分区中的最大字节数。
2	spark.sql.files.openCostInBytes	4194304(4 MB)	打开一个文件的估计成本，通过同时扫描的字节数来衡量。这是在将多个文件放入一个分区时使用的。最好是过度估计，那么带有小文件的分区将比带有大文件的分区(这是优先计划的)更快。
3	spark.sql.broadcastTimeout	300	广播连接中广播等待时间的超时(秒)
4	spark.sql.autoBroadcastJoinThreshold	10485760(10 MB)	配置将在执行join时广播到所有工作节点的表的最大大小(以字节为单位)。通过将此值设置为-1，可以禁用广播。
5	spark.sql.shuffle.partitions	200	在为连接或聚合重组(shuffling)数据时，配置要使用的分区数量。