Spark系列(二十三)关于sortByKey的使用说明 在spark中,对于rdd进行sortByKey,那这个rdd一定是一个key-value pair 类型的rdd。同时这个函数就对key进行排序。在进行排序的时候我们可以选择使用升序排序还是降序排序。使用示例如下:... Raespark系列2022-12-06693 阅读0 评论
Spark系列(二十二)Key-Value pair RDD 在前面我们介绍RDD的时候大多都是一些单数值的RDD,在这里我们再介绍下Key-Value pair类型的RDD,举个例子:package org.example import com.alibaba.fastjso... Raespark系列2022-12-06564 阅读0 评论
Spark系列(二十一)RDD的Action操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06619 阅读0 评论
Spark系列(二十)RDD的Transformaion操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06539 阅读0 评论
Spark系列(十九)创建RDD的几种方式 在前面我们介绍了,在进行接口编程的时候我们主要使用的就是RDD,因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1)从list中创建RDDpackage... Raespark系列2022-12-06561 阅读0 评论
Spark系列(十八)SparkSession介绍 从spark2.0开始,spark的应用程序入口变成了SparkSession,在Spark2.0之前,spark的应用程序入口是SparkContext。目前spark已经是3.x了,因此我们不再介绍SparkCo... Raespark系列2022-12-06588 阅读0 评论
Spark系列(十七)理解Spark的数据抽象RDD 从本文开始,我们将着重介绍spark的核心内容。这篇文章我们主要介绍的就是spark的数据抽象RDD。在spark中,我们经常会听说RDD这个词,这个RDD其实指的是spark接口编程中的每一个数据集。先来看一张图:... Raespark系列2022-12-06712 阅读0 评论
Spark系列(十六)spark-submit命令提交有哪些参数 在上一篇文章里面我们介绍了spark应用程序提交,也提到过几个常见的参数,这篇文章我们详细介绍下对应的参数信息及说明。详细的参数如下:序号选项说明1--master指定使用哪个集群管理器来运行spark的应用程序,S... Raespark系列2022-12-06634 阅读0 评论
Spark系列(十五)把spark应用程序提交到yarn运行 在前面我们介绍了spark直接提交到standalone的集群运行,这里我们演示下把spark的程序提交到yarn上运行。在生产环境中我们一般都会把应用程序提交到yarn上运行,这几乎是我遇到的大数据公司的共识,通过... Raespark系列2022-12-06651 阅读0 评论
热文使用scala编写的spark程序使用maven打包plugin 在编写spark相关的文章的时候,准备把本地打包的程序部署到服务器上,结果始终打包有问题,总结下出现的问题主要有:1、打包的代码上传上去找不到类 2、打包上去的代码运行时出现版本异常因此这里我把scala编写的spa... Raejava2022-12-021153 阅读0 评论