Rae 第99页

Spark案例介绍（三）二次排序

在使用spark的场景里面，二次排序是我们经常会使用到的应用场景，那么什么是二次排序呢？二次排序就是类似把key-value pair的rdd首先根据key进行排序，再根据value进行排序。这个案例我们介绍根据sp...

Rae /spark项目实战 /2022-12-08 /0 评论 /787 阅读

在spark的场景里面我们有时候会遇到很多场景，例如不同的客户端收集的日志都保存到对应client目录里面，此时如果我们分析的时候，日志文件都分布在不同的目录里面，而且可能由于写文件的规则产生很多个小文件，那有没有办...

Rae /spark项目实战 /2022-12-08 /0 评论 /784 阅读

这篇文章我们介绍一下spark的案例，也就是大家常见的TopN的问题，这个主要介绍案例，本案例的场景是一个班里有20个学生，统计下所有学生的前5名。[NeadPay]...

Rae /spark项目实战 /2022-12-08 /0 评论 /701 阅读

在spark中，我们可能会在某些节点上使用同一个变量的值做加法，最后统计总的结果。这时候spark为我们提供了一个累加器。也就是声明一个累加器，然后我们可以在各个executor对当前的累加器进行计数操作。下面演示一...

Rae /spark系列 /2022-12-08 /0 评论 /648 阅读

在spark中，我们可能会在某个节点上使用同一个变量的值，所以这时候spark为我们提供了一个广播变量。也就是把某个值做成广播变量，然后spark会把这个变量作为一个只读属性的变量分发给所有的集群节点。此时这些节点可...

Rae /spark系列 /2022-12-08 /0 评论 /498 阅读

在spark应用程序执行的时候，每一个rdd都会有分区，当我们没有指定分区的时候，则分区数量是根据spark的配置项：spark.default.parallelism决定的，但是我们常常需要根据spark的集群信息...

Rae /spark系列 /2022-12-08 /0 评论 /666 阅读

在spark中，特别是流计算的时候使用这种RDD的检查点会比较多。在spark的整个运行中，我们可以知道整个rdd会形成一个拓扑图，里面主要是各个rdd的依赖信息。如下图：这篇文章我们介绍spark的检查点，也就是c...

Rae /spark系列 /2022-12-08 /0 评论 /690 阅读

在spark应用程序执行的时候，整个链路会产生非常多的rdd。在前面我们介绍过使用transformation的时候，只有遇到action的时候才会执行相关的transformation，也就是这些rdd是惰性执行的...

Rae /spark系列 /2022-12-07 /0 评论 /592 阅读

在spark中，对于rdd进行combineByKey，那这个rdd一定是一个key-value pair 类型的rdd。在这里使用combineByKey的时候，可能会遇到TupleN的参数格式，例如，如果我们得数...

Rae /spark系列 /2022-12-07 /0 评论 /625 阅读

在spark中，对于rdd进行aggregateByKey，那这个rdd一定是一个key-value pair 类型的rdd。在这里使用aggregateByKey的时候，可能会遇到TupleN的参数格式，例如，如果...

Rae /spark系列 /2022-12-06 /0 评论 /671 阅读

在spark中，对于rdd进行reduceByKey，那这个rdd一定是一个key-value pair 类型的rdd。这个reduceByKey的主要作用就是把相同key的数据对象合并到一起。常见的应用场景是wor...

Rae /spark系列 /2022-12-06 /0 评论 /480 阅读

在spark中，对于rdd的操作还提供了groupByKey，如果使用到了groupByKey，那么此时的rdd也一定是一个key-value pair类型的RDD。这里的groupByKey其实主要就是根据key值...

Rae /spark系列 /2022-12-06 /0 评论 /466 阅读

在spark中，对于rdd进行sortByKey，那这个rdd一定是一个key-value pair 类型的rdd。同时这个函数就对key进行排序。在进行排序的时候我们可以选择使用升序排序还是降序排序。使用示例如下：...

Rae /spark系列 /2022-12-06 /0 评论 /521 阅读

在前面我们介绍RDD的时候大多都是一些单数值的RDD，在这里我们再介绍下Key-Value pair类型的RDD，举个例子：package org.example import com.alibaba.fastjso...

Rae /spark系列 /2022-12-06 /0 评论 /438 阅读

在前面介绍了RDD之后，这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句，在spark应用程序的生命周期里面它也有数据源->Transformaion->action这样的生命...

Rae /spark系列 /2022-12-06 /0 评论 /480 阅读