Spark系列(八)Spark集群的资源管理系统 spark从本质上来说算是一个分布式系统,因此我们经常听说spark集群这个词,在整个spark中,有自己的资源管理系统,当然也可以使用外部的资源管理系统例如:apache yarn或者是apache mesos系统... Rae /spark系列 /2022-11-27 /0 评论 /285 阅读
Spark系列(七)Spark技术栈之SparkR 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的sparkR技术栈。我们知道,在数据分析的场景里面,很多都是使用python或者R语言的,因此基于python和R语言有很多开源库供... Rae /spark系列 /2022-11-27 /0 评论 /255 阅读
Spark系列(六)Spark技术栈之Spark GraphX 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark Graphx技术栈。在spark中Spark Graphx是spark提供的一个图计算框架,他是一种嵌入式的图处理API... Rae /spark系列 /2022-11-27 /0 评论 /181 阅读
Spark系列(五)Spark技术栈之Spark MLlib 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark mllib技术栈。这是一个在spark之上构建的机器学习库,也就是我们可以利用spark做机器学习,算法实现等应用。在s... Rae /spark系列 /2022-11-27 /0 评论 /278 阅读
Spark系列(四)Spark技术栈之Spark Structured Streaming 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark Structured Streaming技术栈。这里可能大家会问,在图中没有看到spark Structured Str... Rae /spark系列 /2022-11-27 /0 评论 /217 阅读
Spark系列(三)Spark技术栈之Spark Sql 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark sql技术栈。在spark中spark sql是日常中使用非常广泛的一个技术栈。整个spark sql是构建在spark... Rae /spark系列 /2022-11-27 /0 评论 /219 阅读
Spark系列(二)Spark技术栈之Spark Core 首先我们上一张spark的技术栈框架图结合上面的图,这篇文章我们主要介绍spark的spark core技术栈。在spark中Spark core模块是整个Spark数据处理引擎的核心,它提供了分布式集群计算的基础设... Rae /spark系列 /2022-11-27 /0 评论 /285 阅读
Spark系列(一)Spark是什么? Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。它类似于 Hadoop 的 MapReduce,但对于执行批处理来说速度更快、更高效。Apache Spark 可以部署在大量廉价的硬件设备上... Rae /spark系列 /2022-11-26 /0 评论 /180 阅读