Spark系列(二十七)关于combineByKey的使用说明 在spark中,对于rdd进行combineByKey,那这个rdd一定是一个key-value pair 类型的rdd。在这里使用combineByKey的时候,可能会遇到TupleN的参数格式,例如,如果我们得数... Rae /spark系列 /2022-12-07 /0 评论 /257 阅读
Spark系列(二十六)关于aggregateByKey的使用说明 在spark中,对于rdd进行aggregateByKey,那这个rdd一定是一个key-value pair 类型的rdd。在这里使用aggregateByKey的时候,可能会遇到TupleN的参数格式,例如,如果... Rae /spark系列 /2022-12-06 /0 评论 /333 阅读
Spark系列(二十五)关于reduceByKey的使用说明 在spark中,对于rdd进行reduceByKey,那这个rdd一定是一个key-value pair 类型的rdd。这个reduceByKey的主要作用就是把相同key的数据对象合并到一起。常见的应用场景是wor... Rae /spark系列 /2022-12-06 /0 评论 /190 阅读
Spark系列(二十四)关于groupByKey的使用说明 在spark中,对于rdd的操作还提供了groupByKey,如果使用到了groupByKey,那么此时的rdd也一定是一个key-value pair类型的RDD。这里的groupByKey其实主要就是根据key值... Rae /spark系列 /2022-12-06 /0 评论 /198 阅读
Spark系列(二十三)关于sortByKey的使用说明 在spark中,对于rdd进行sortByKey,那这个rdd一定是一个key-value pair 类型的rdd。同时这个函数就对key进行排序。在进行排序的时候我们可以选择使用升序排序还是降序排序。使用示例如下:... Rae /spark系列 /2022-12-06 /0 评论 /211 阅读
Spark系列(二十二)Key-Value pair RDD 在前面我们介绍RDD的时候大多都是一些单数值的RDD,在这里我们再介绍下Key-Value pair类型的RDD,举个例子:package org.exampleimport com.al... Rae /spark系列 /2022-12-06 /0 评论 /188 阅读
Spark系列(二十一)RDD的Action操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->... Rae /spark系列 /2022-12-06 /0 评论 /188 阅读
Spark系列(二十)RDD的Transformaion操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->... Rae /spark系列 /2022-12-06 /0 评论 /183 阅读
Spark系列(十九)创建RDD的几种方式 在前面我们介绍了,在进行接口编程的时候我们主要使用的就是RDD,因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1)从list中创建RDDpackage... Rae /spark系列 /2022-12-06 /0 评论 /198 阅读
Spark系列(十八)SparkSession介绍 从spark2.0开始,spark的应用程序入口变成了SparkSession,在Spark2.0之前,spark的应用程序入口是SparkContext。目前spark已经是3.x了,因此我们不再介绍SparkCo... Rae /spark系列 /2022-12-06 /0 评论 /177 阅读