Spark案例介绍(一)TopN案例(找出班里成绩排名前10的学生) 这篇文章我们介绍一下spark的案例,也就是大家常见的TopN的问题,这个主要介绍案例,本案例的场景是一个班里有20个学生,统计下所有学生的前5名。[NeadPay]... Raespark项目实战2022-12-08836 阅读0 评论
Spark系列(三十二)Accumulator累加器 在spark中,我们可能会在某些节点上使用同一个变量的值做加法,最后统计总的结果。这时候spark为我们提供了一个累加器。也就是声明一个累加器,然后我们可以在各个executor对当前的累加器进行计数操作。下面演示一... Raespark系列2022-12-08861 阅读0 评论
Spark系列(三十一)Broadcast广播变量 在spark中,我们可能会在某个节点上使用同一个变量的值,所以这时候spark为我们提供了一个广播变量。也就是把某个值做成广播变量,然后spark会把这个变量作为一个只读属性的变量分发给所有的集群节点。此时这些节点可... Raespark系列2022-12-08715 阅读0 评论
Spark系列(三十)关于RDD的分区调整介绍 在spark应用程序执行的时候,每一个rdd都会有分区,当我们没有指定分区的时候,则分区数量是根据spark的配置项:spark.default.parallelism决定的,但是我们常常需要根据spark的集群信息... Raespark系列2022-12-08872 阅读0 评论
Spark系列(二十九)关于RDD的检查点Checkpoint 在spark中,特别是流计算的时候使用这种RDD的检查点会比较多。在spark的整个运行中,我们可以知道整个rdd会形成一个拓扑图,里面主要是各个rdd的依赖信息。如下图:这篇文章我们介绍spark的检查点,也就是c... Raespark系列2022-12-08861 阅读0 评论
Spark系列(二十八)关于RDD的持久化 在spark应用程序执行的时候,整个链路会产生非常多的rdd。在前面我们介绍过使用transformation的时候,只有遇到action的时候才会执行相关的transformation,也就是这些rdd是惰性执行的... Raespark系列2022-12-07727 阅读0 评论
热文Spark系列(二十七)关于combineByKey的使用说明 在spark中,对于rdd进行combineByKey,那这个rdd一定是一个key-value pair 类型的rdd。在这里使用combineByKey的时候,可能会遇到TupleN的参数格式,例如,如果我们得数... Raespark系列2022-12-074133 阅读0 评论
Spark系列(二十六)关于aggregateByKey的使用说明 在spark中,对于rdd进行aggregateByKey,那这个rdd一定是一个key-value pair 类型的rdd。在这里使用aggregateByKey的时候,可能会遇到TupleN的参数格式,例如,如果... Raespark系列2022-12-06895 阅读0 评论
Spark系列(二十五)关于reduceByKey的使用说明 在spark中,对于rdd进行reduceByKey,那这个rdd一定是一个key-value pair 类型的rdd。这个reduceByKey的主要作用就是把相同key的数据对象合并到一起。常见的应用场景是wor... Raespark系列2022-12-06685 阅读0 评论
Spark系列(二十四)关于groupByKey的使用说明 在spark中,对于rdd的操作还提供了groupByKey,如果使用到了groupByKey,那么此时的rdd也一定是一个key-value pair类型的RDD。这里的groupByKey其实主要就是根据key值... Raespark系列2022-12-06630 阅读0 评论
Spark系列(二十三)关于sortByKey的使用说明 在spark中,对于rdd进行sortByKey,那这个rdd一定是一个key-value pair 类型的rdd。同时这个函数就对key进行排序。在进行排序的时候我们可以选择使用升序排序还是降序排序。使用示例如下:... Raespark系列2022-12-06725 阅读0 评论
Spark系列(二十二)Key-Value pair RDD 在前面我们介绍RDD的时候大多都是一些单数值的RDD,在这里我们再介绍下Key-Value pair类型的RDD,举个例子:package org.example import com.alibaba.fastjso... Raespark系列2022-12-06589 阅读0 评论
Spark系列(二十一)RDD的Action操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06637 阅读0 评论
Spark系列(二十)RDD的Transformaion操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06563 阅读0 评论
Spark系列(十九)创建RDD的几种方式 在前面我们介绍了,在进行接口编程的时候我们主要使用的就是RDD,因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1)从list中创建RDDpackage... Raespark系列2022-12-06585 阅读0 评论