Rae 第100页

Spark系列（二十）RDD的Transformaion操作

在前面介绍了RDD之后，这里我们就要介绍下RDD的Transformaion和action操作。这里顺便提一句，在spark应用程序的生命周期里面它也有数据源->Transformaion->action这样的生命...

Rae /spark系列 /2022-12-06 /0 评论 /401 阅读

在前面我们介绍了，在进行接口编程的时候我们主要使用的就是RDD，因此RDD可以看作是spark接口编程的基石。这篇文章我们介绍下创建RDD的几种方式。一、从集合中创建RDD1.1）从list中创建RDDpackage...

Rae /spark系列 /2022-12-06 /0 评论 /422 阅读

从spark2.0开始，spark的应用程序入口变成了SparkSession，在Spark2.0之前，spark的应用程序入口是SparkContext。目前spark已经是3.x了，因此我们不再介绍SparkCo...

Rae /spark系列 /2022-12-06 /0 评论 /451 阅读

从本文开始，我们将着重介绍spark的核心内容。这篇文章我们主要介绍的就是spark的数据抽象RDD。在spark中，我们经常会听说RDD这个词，这个RDD其实指的是spark接口编程中的每一个数据集。先来看一张图:...

Rae /spark系列 /2022-12-06 /0 评论 /522 阅读

在上一篇文章里面我们介绍了spark应用程序提交，也提到过几个常见的参数，这篇文章我们详细介绍下对应的参数信息及说明。详细的参数如下：序号选项说明1--master指定使用哪个集群管理器来运行spark的应用程序，S...

Rae /spark系列 /2022-12-06 /0 评论 /466 阅读

在前面我们介绍了spark直接提交到standalone的集群运行，这里我们演示下把spark的程序提交到yarn上运行。在生产环境中我们一般都会把应用程序提交到yarn上运行，这几乎是我遇到的大数据公司的共识，通过...

Rae /spark系列 /2022-12-06 /0 评论 /506 阅读

在编写spark相关的文章的时候，准备把本地打包的程序部署到服务器上，结果始终打包有问题，总结下出现的问题主要有：1、打包的代码上传上去找不到类 2、打包上去的代码运行时出现版本异常因此这里我把scala编写的spa...

Rae /java /2022-12-02 /0 评论 /994 阅读

之前的文章我们介绍了spark的wordcount应用程序开发，同时也把spark的wordcount应用程序修改为从hdfs上读取和写入，这篇文章我们介绍下如何把spark应用程序提交到spark集群里面运行。一、...

Rae /spark系列 /2022-12-01 /0 评论 /522 阅读

在前面我们介绍了使用scala开发一个spark的wordcount程序，当时读取的是本地，最后结果是打印出来，现在我们把这个文件上传到hdfs上，然后通过hdfs进行读写文件。（写这篇文章主要是为了写下一篇spar...

Rae /spark系列 /2022-12-01 /0 评论 /563 阅读

在前面我们介绍了直接在物理机上安装spark集群，详见《Spark学习（十）Spark集群安装》，在生产环境中我们肯定是必须使用这种方式安装。这篇文章我们介绍使用docker的方式安装一个spark集群，这样可以在测...

Rae /spark系列 /2022-12-01 /0 评论 /1487 阅读

在IT界学习一个技术，编写的第一个应用程序就是HelloWord，因此在这里，我们使用scala编写以第一个spark应用程序:helloword。备注：这里我们主要演示使用scala编写一个spark的wordco...

Rae /spark系列 /2022-12-01 /0 评论 /705 阅读

在开发spark相关的应用程序的时候，我们最好使用idea软件工具，因为idea使用scala开发的时候不会很卡，这里主要是针对eclipse，在eclipse上会自动编译，开发起来写代码很卡。这篇文章我们介绍下如何...

Rae /spark系列 /2022-12-01 /0 评论 /791 阅读

在Eclipse里面默认是没有提供Scala的maven模板的，包括使用Scala专版的Eclipse也没有提供scala的maven模板，所以如果我们创建scala的maven项目的时候，没有相关的模板，用起来确实...

Rae /java /2022-11-30 /0 评论 /858 阅读

最近做项目的时候遇到需要读取excel，同时需要把整个excel的正确数据和错误数据标记出来。所以这里我们直接使用EasyExcel框架来实现。这里主要的核心是使用EasyExcel的listener来进行操作即可。...

Rae /java /2022-11-29 /0 评论 /1187 阅读

我们在前面介绍了spark相关的基础知识，这篇文章我们介绍下spark的集群安装，先把spark跑起来看一下是一个什么内容，然后再继续接着其他知识点讲解。一、准备3台服务器这里我们准备3台服务器做测试节点，分别是：序...

Rae /spark系列 /2022-11-27 /0 评论 /765 阅读