Spark系列(四十九)Spark sql中join连接 在spark sql中,我们还会经常遇到join的使用。例如把两个表进行合并或者筛选结果等场景。在spark中使用join和在数据库中使用join差别不大。下面先介绍下spark sql中支持哪些join。序号类型描... Raespark系列2022-12-13925 阅读0 评论
热文Spark系列(四十八)Spark sql中自定义UDF函数 在使用sparksql的时候,除了系统内置的一些函数之外,我们还可以自定义UDF函数,然后在查询的时候使用这个UDF函数即可。整个UDF函数的流程如下:这个UDF其实就是一个方法,在使用的时候传入一个值然后返回一个新... Raespark系列2022-12-131656 阅读0 评论
热文Spark系列(四十七)Spark sql中内置的聚合函数 我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍... Raespark系列2022-12-131093 阅读0 评论
Spark系列(四十六)Spark sql中内置的标量函数 我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍... Raespark系列2022-12-13872 阅读0 评论
热文Spark案例介绍(四)使用sparksql的方式实现单词计数 在前面我们基础内容介绍的比较多,这篇我们使用spark sql来实操一下某些场景业务。本篇介绍的是使用sparksql的方式实现单词计数,同时我们会演示使用dataframe和dataset两种方式来实现单词计数。下... Raespark系列2022-12-131043 阅读0 评论
热文Spark系列(四十五)Spark sql中DataSet介绍 在前面我们大部分篇幅都介绍的是dataframe,这篇文章我们介绍下dataset。dataset是spark1.6开始提供的函数编程API,在spark2.x之后,spark把dataset和dataframe给融... Raespark系列2022-12-131055 阅读0 评论
Spark系列(四十四)Spark sql中DataFrame的存储 在实际的spark应用程序开发中,我们对于dataframe进行各种操作之后会得到本业务的最终数据,此时那么我们肯定是需要把数据存储起来,那么DataFrame如何做存储呢?第一种方式:存储到文件在前面的案例里面,我... Raespark系列2022-12-12726 阅读0 评论