Spark系列(二十二)Key-Value pair RDD 在前面我们介绍RDD的时候大多都是一些单数值的RDD,在这里我们再介绍下Key-Value pair类型的RDD,举个例子:package org.example import com.alibaba.fastjso... Raespark系列2022-12-06571 阅读0 评论
Spark系列(二十一)RDD的Action操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06623 阅读0 评论
Spark系列(二十)RDD的Transformaion操作 在前面介绍了RDD之后,这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句,在spark应用程序的生命周期里面它也有 数据源->Transformaion->action这样的生命... Raespark系列2022-12-06546 阅读0 评论
Spark系列(十九)创建RDD的几种方式 在前面我们介绍了,在进行接口编程的时候我们主要使用的就是RDD,因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1)从list中创建RDDpackage... Raespark系列2022-12-06568 阅读0 评论
Spark系列(十八)SparkSession介绍 从spark2.0开始,spark的应用程序入口变成了SparkSession,在Spark2.0之前,spark的应用程序入口是SparkContext。目前spark已经是3.x了,因此我们不再介绍SparkCo... Raespark系列2022-12-06593 阅读0 评论
Spark系列(十七)理解Spark的数据抽象RDD 从本文开始,我们将着重介绍spark的核心内容。这篇文章我们主要介绍的就是spark的数据抽象RDD。在spark中,我们经常会听说RDD这个词,这个RDD其实指的是spark接口编程中的每一个数据集。先来看一张图:... Raespark系列2022-12-06720 阅读0 评论
Spark系列(十六)spark-submit命令提交有哪些参数 在上一篇文章里面我们介绍了spark应用程序提交,也提到过几个常见的参数,这篇文章我们详细介绍下对应的参数信息及说明。详细的参数如下:序号选项说明1--master指定使用哪个集群管理器来运行spark的应用程序,S... Raespark系列2022-12-06641 阅读0 评论
Spark系列(十五)把spark应用程序提交到yarn运行 在前面我们介绍了spark直接提交到standalone的集群运行,这里我们演示下把spark的程序提交到yarn上运行。在生产环境中我们一般都会把应用程序提交到yarn上运行,这几乎是我遇到的大数据公司的共识,通过... Raespark系列2022-12-06657 阅读0 评论
Spark系列(十四)把spark应用程序提交到spark集群里面去运行 之前的文章我们介绍了spark的wordcount应用程序开发,同时也把spark的wordcount应用程序修改为从hdfs上读取和写入,这篇文章我们介绍下如何把spark应用程序提交到spark集群里面运行。一、... Raespark系列2022-12-01692 阅读0 评论
Spark系列(十三)spark应用程序开发之使用hdfs读写文件 在前面我们介绍了使用scala开发一个spark的wordcount程序,当时读取的是本地,最后结果是打印出来,现在我们把这个文件上传到hdfs上,然后通过hdfs进行读写文件。(写这篇文章主要是为了写下一篇spar... Raespark系列2022-12-01726 阅读0 评论
热文使用docker方式安装spark集群 在前面我们介绍了直接在物理机上安装spark集群,详见《Spark学习(十)Spark集群安装》,在生产环境中我们肯定是必须使用这种方式安装。这篇文章我们介绍使用docker的方式安装一个spark集群,这样可以在测... Raespark系列2022-12-011718 阅读0 评论
Spark系列(十二)使用scala编写第一个spark应用程序-HelloWord 在IT界学习一个技术,编写的第一个应用程序就是HelloWord,因此在这里,我们使用scala编写以第一个spark应用程序:helloword。备注:这里我们主要演示使用scala编写一个spark的wordco... Raespark系列2022-12-01881 阅读0 评论
热文Spark系列(十一)Idea配置scala的环境,并且添加maven的scala项目模板 在开发spark相关的应用程序的时候,我们最好使用idea软件工具,因为idea使用scala开发的时候不会很卡,这里主要是针对eclipse,在eclipse上会自动编译,开发起来写代码很卡。这篇文章我们介绍下如何... Raespark系列2022-12-011015 阅读0 评论
热文Spark系列(十)Spark集群安装 我们在前面介绍了spark相关的基础知识,这篇文章我们介绍下spark的集群安装,先把spark跑起来看一下是一个什么内容,然后再继续接着其他知识点讲解。一、准备3台服务器这里我们准备3台服务器做测试节点,分别是:序... Raespark系列2022-11-271008 阅读0 评论
Spark系列(九)Spark应用程序介绍 在spark的开发中,我们一般会开发对应的应用程序,这里我们一般把他称为是一个application或者job。一个应用程序里面包含自己当前应用程序所需要操作的所有逻辑。在应用程序开发完毕之后,我们需要把这个应用程序... Raespark系列2022-11-27707 阅读0 评论