Spark系列(五十一)Spark Streaming介绍 在spark中,除了提供批处理(前面的文章主要是基于批处理来介绍的),还提供有流处理的方法,也就是我们可以从消息队列等场景里面源源不断的获取数据回来进行处理,此时spark的应用程序就成为了一个常驻进程,只要有数据流... Rae /spark系列 /2022-12-14 /0 评论 /283 阅读
Spark系列(五十)Spark sql应用程序调优涉及的参数信息 在前面的文章我们介绍了很多spark sql相关的内容,这篇文章列举下在使用spark sql编写应用程序的时候,会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。序号参数默认值说明1spar... Rae /spark系列 /2022-12-14 /0 评论 /505 阅读
Spark系列(四十九)Spark sql中join连接 在spark sql中,我们还会经常遇到join的使用。例如把两个表进行合并或者筛选结果等场景。在spark中使用join和在数据库中使用join差别不大。下面先介绍下spark sql中支持哪些join。序号类型描... Rae /spark系列 /2022-12-13 /0 评论 /401 阅读
Spark系列(四十八)Spark sql中自定义UDF函数 在使用sparksql的时候,除了系统内置的一些函数之外,我们还可以自定义UDF函数,然后在查询的时候使用这个UDF函数即可。整个UDF函数的流程如下:这个UDF其实就是一个方法,在使用的时候传入一个值然后返回一个新... Rae /spark系列 /2022-12-13 /0 评论 /733 阅读
Spark系列(四十七)Spark sql中内置的聚合函数 我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍... Rae /spark系列 /2022-12-13 /0 评论 /464 阅读
Spark系列(四十六)Spark sql中内置的标量函数 我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍... Rae /spark系列 /2022-12-13 /0 评论 /244 阅读
Spark案例介绍(四)使用sparksql的方式实现单词计数 在前面我们基础内容介绍的比较多,这篇我们使用spark sql来实操一下某些场景业务。本篇介绍的是使用sparksql的方式实现单词计数,同时我们会演示使用dataframe和dataset两种方式来实现单词计数。下... Rae /spark系列 /2022-12-13 /0 评论 /355 阅读
Spark系列(四十五)Spark sql中DataSet介绍 在前面我们大部分篇幅都介绍的是dataframe,这篇文章我们介绍下dataset。dataset是spark1.6开始提供的函数编程API,在spark2.x之后,spark把dataset和dataframe给融... Rae /spark系列 /2022-12-13 /0 评论 /365 阅读
Spark系列(四十四)Spark sql中DataFrame的存储 在实际的spark应用程序开发中,我们对于dataframe进行各种操作之后会得到本业务的最终数据,此时那么我们肯定是需要把数据存储起来,那么DataFrame如何做存储呢?第一种方式:存储到文件在前面的案例里面,我... Rae /spark系列 /2022-12-12 /0 评论 /228 阅读
Spark系列(四十三)Spark sql中DataFrame API 在前面我们介绍了spark sql其实操作的主要是DataFrame,那么对于DataFrame有哪些API供操作呢?下面列举一下:序号函数含义示例1select查询数据val usersDF = sc.parall... Rae /spark系列 /2022-12-12 /0 评论 /246 阅读