RaeV管理员
文章 1946 篇 | 评论 3720 次

作者 Rae 发布的文章

Spark系列(三十二)Accumulator累加器

在spark中,我们可能会在某些节点上使用同一个变量的值做加法,最后统计总的结果。这时候spark为我们提供了一个累加器。也就是声明一个累加器,然后我们可以在各个executor对当前的累加器进行计数操作。下面演示一...

Spark系列(三十一)Broadcast广播变量

在spark中,我们可能会在某个节点上使用同一个变量的值,所以这时候spark为我们提供了一个广播变量。也就是把某个值做成广播变量,然后spark会把这个变量作为一个只读属性的变量分发给所有的集群节点。此时这些节点可...

Spark系列(十九)创建RDD的几种方式

在前面我们介绍了,在进行接口编程的时候我们主要使用的就是RDD,因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1)从list中创建RDDpackage...