Spark系列(十二)使用scala编写第一个spark应用程序-HelloWord 在IT界学习一个技术,编写的第一个应用程序就是HelloWord,因此在这里,我们使用scala编写以第一个spark应用程序:helloword。备注:这里我们主要演示使用scala编写一个spark的wordco... Raespark系列2022-12-01857 阅读0 评论
热文Spark系列(十一)Idea配置scala的环境,并且添加maven的scala项目模板 在开发spark相关的应用程序的时候,我们最好使用idea软件工具,因为idea使用scala开发的时候不会很卡,这里主要是针对eclipse,在eclipse上会自动编译,开发起来写代码很卡。这篇文章我们介绍下如何... Raespark系列2022-12-011000 阅读0 评论
Spark系列(十)Spark集群安装 我们在前面介绍了spark相关的基础知识,这篇文章我们介绍下spark的集群安装,先把spark跑起来看一下是一个什么内容,然后再继续接着其他知识点讲解。一、准备3台服务器这里我们准备3台服务器做测试节点,分别是:序... Raespark系列2022-11-27986 阅读0 评论
Spark系列(九)Spark应用程序介绍 在spark的开发中,我们一般会开发对应的应用程序,这里我们一般把他称为是一个application或者job。一个应用程序里面包含自己当前应用程序所需要操作的所有逻辑。在应用程序开发完毕之后,我们需要把这个应用程序... Raespark系列2022-11-27682 阅读0 评论
Spark系列(八)Spark集群的资源管理系统 spark从本质上来说算是一个分布式系统,因此我们经常听说spark集群这个词,在整个spark中,有自己的资源管理系统,当然也可以使用外部的资源管理系统例如:apache yarn或者是apache mesos系统... Raespark系列2022-11-27878 阅读0 评论
Spark系列(七)Spark技术栈之SparkR 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的sparkR技术栈。我们知道,在数据分析的场景里面,很多都是使用python或者R语言的,因此基于python和R语言有很多开源库供... Raespark系列2022-11-27837 阅读0 评论
Spark系列(六)Spark技术栈之Spark GraphX 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark Graphx技术栈。在spark中Spark Graphx是spark提供的一个图计算框架,他是一种嵌入式的图处理API... Raespark系列2022-11-27667 阅读0 评论
Spark系列(五)Spark技术栈之Spark MLlib 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark mllib技术栈。这是一个在spark之上构建的机器学习库,也就是我们可以利用spark做机器学习,算法实现等应用。在s... Raespark系列2022-11-27998 阅读0 评论
Spark系列(四)Spark技术栈之Spark Structured Streaming 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark Structured Streaming技术栈。这里可能大家会问,在图中没有看到spark Structured Str... Raespark系列2022-11-27790 阅读0 评论
Spark系列(三)Spark技术栈之Spark Sql 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark sql技术栈。在spark中spark sql是日常中使用非常广泛的一个技术栈。整个spark sql是构建在spark... Raespark系列2022-11-27655 阅读0 评论
Spark系列(二)Spark技术栈之Spark Core 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark core技术栈。在spark中Spark core模块是整个Spark数据处理引擎的核心,它提供了分布式集群计算的基础设... Raespark系列2022-11-27874 阅读0 评论
Spark系列(一)Spark是什么? Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。它类似于 Hadoop 的 MapReduce,但对于执行批处理来说速度更快、更高效。Apache Spark 可以部署在大量廉价的硬件设备上... Raespark系列2022-11-26922 阅读0 评论
Flink系列(二十七)flink的状态快照是什么 flink中的状态快照其实就是用于获取并存储分布式管道中整体的状态,将数据源中消费数据的偏移量记录下来,并将整个作业图中算子获取到该数据时的状态记录并存储下来。在发生故障时,Flink作业会恢复上次存储的状态,重置数... Raeflink系列2022-10-09962 阅读0 评论
Flink系列(二十六)Flink状态持久化之检查点 在flink中,Flink是使用流重放和检查点来实现容错的。本篇文章我们介绍下Flink的检查点。 Flink的检查点是标记每一个输入流中的特定点以及每个算子的对应状态。检查点的间隔设置为多少,是在执行期间的容错开销... Raeflink系列2022-10-09855 阅读0 评论
Flink系列(二十五)Flink窗口函数有哪些? 在flink中,当我们定义了窗口分配器智慧,我们就需要在每个窗口中进行计算操作。这里的计算操作就需要用到窗口函数。在flink的窗口处理事件里面还是还是挺多的,例如:ReduceFunction、AggregateF... Raeflink系列2022-10-09864 阅读0 评论