RaeV管理员
文章 1948 篇 | 评论 3725 次

作者 Rae 发布的文章

Spark案例介绍(三)二次排序

在使用spark的场景里面,二次排序是我们经常会使用到的应用场景,那么什么是二次排序呢?二次排序就是类似把key-value pair的rdd首先根据key进行排序,再根据value进行排序。这个案例我们介绍根据sp...

Spark案例介绍(二)合并小文件

在spark的场景里面我们有时候会遇到很多场景,例如不同的客户端收集的日志都保存到对应client目录里面,此时如果我们分析的时候,日志文件都分布在不同的目录里面,而且可能由于写文件的规则产生很多个小文件,那有没有办...

Spark系列(三十二)Accumulator累加器

在spark中,我们可能会在某些节点上使用同一个变量的值做加法,最后统计总的结果。这时候spark为我们提供了一个累加器。也就是声明一个累加器,然后我们可以在各个executor对当前的累加器进行计数操作。下面演示一...

Spark系列(三十一)Broadcast广播变量

在spark中,我们可能会在某个节点上使用同一个变量的值,所以这时候spark为我们提供了一个广播变量。也就是把某个值做成广播变量,然后spark会把这个变量作为一个只读属性的变量分发给所有的集群节点。此时这些节点可...