在前面的文章我们介绍了很多spark sql相关的内容,这篇文章列举下在使用spark sql编写应用程序的时候,会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。
序号 | 参数 | 默认值 | 说明 |
1 | spark.sql.files.maxPartitionBytes | 134217728(128 MB) | 在读取文件时,要塞进到单个分区中的最大字节数。 |
2 | spark.sql.files.openCostInBytes | 4194304(4 MB) | 打开一个文件的估计成本,通过同时扫描的字节数来衡量。这是在将多个文件放入一个分区时使用的。最好是过度估计,那么带有小文件的分区将比带有大文件的分区(这是优先计划的)更快。 |
3 | spark.sql.broadcastTimeout | 300 | 广播连接中广播等待时间的超时(秒) |
4 | spark.sql.autoBroadcastJoinThreshold | 10485760(10 MB) | 配置将在执行join时广播到所有工作节点的表的最大大小(以字节为单位)。通过将此值设置为-1,可以禁用广播。 |
5 | spark.sql.shuffle.partitions | 200 | 在为连接或聚合重组(shuffling)数据时,配置要使用的分区数量。 |
备注:
1、上诉的参数都是根据实际情况进行调优即可。
还没有评论,来说两句吧...