SparkSQL

这里整理SparkSQL相关的文章与实践记录，内容以问题排查、使用经验和项目笔记为主。

Spark案例介绍（六）spark structured streaming配合kafka实现滚动窗口数据统计

热文Spark案例介绍（六）spark structured streaming配合kafka实现滚动窗口数据统计

在生活中我们经常会遇到比如在每隔5分钟，统计用户的下单次数，每隔1分钟，统计下股票的涨跌数据等等，这种就是时间窗口相关的应用场景，在实际的工作中我们遇到的比比皆是，因此这篇文章我们主要给大家演示下使用spark st...

Rae spark项目实战2022-12-151031 阅读0 评论

Spark案例介绍（五）使用spark structured streaming实现kafka的读写数据

热文Spark案例介绍（五）使用spark structured streaming实现kafka的读写数据

这篇文章我们完整的演示一下，利用spark structured streaming编写spark的流处理，从kafka里面消费json，然后把json转换成对象，再利用spark sql进行查询或者join等，计算...

Rae spark项目实战2022-12-141195 阅读0 评论

Spark系列（五十二）Spark Structured Streaming介绍

Spark系列（五十二）Spark Structured Streaming介绍

在前面我们演示了spark streaming的介绍，同时我们也提到过在spark2.x的部分里面提供了全新的结构化流处理也就是这里的spark structured streaming。这两个都是spark的流处理...

Rae spark系列2022-12-14896 阅读0 评论

Spark系列（五十一）Spark Streaming介绍

Spark系列（五十一）Spark Streaming介绍

在spark中，除了提供批处理（前面的文章主要是基于批处理来介绍的），还提供有流处理的方法，也就是我们可以从消息队列等场景里面源源不断的获取数据回来进行处理，此时spark的应用程序就成为了一个常驻进程，只要有数据流...

Rae spark系列2022-12-14882 阅读0 评论

Spark系列（五十）Spark sql应用程序调优涉及的参数信息

热文Spark系列（五十）Spark sql应用程序调优涉及的参数信息

在前面的文章我们介绍了很多spark sql相关的内容，这篇文章列举下在使用spark sql编写应用程序的时候，会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。序号参数默认值说明1spar...

Rae spark系列2022-12-141233 阅读0 评论

Spark Sql中如何解决join倾斜连接的问题？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-14)

767 1

Spark Sql中如何合并 Shuffle 后分区？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-14)

679 1

Spark Sql中如何开启自适应查询？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-14)

749 1

Spark Sql应用程序，如何调整shuffle的分区大小？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-14)

969 1

Spark系列（四十九）Spark sql中join连接

Spark系列（四十九）Spark sql中join连接

在spark sql中，我们还会经常遇到join的使用。例如把两个表进行合并或者筛选结果等场景。在spark中使用join和在数据库中使用join差别不大。下面先介绍下spark sql中支持哪些join。序号类型描...

Rae spark系列2022-12-13924 阅读0 评论

Spark系列（四十八）Spark sql中自定义UDF函数

热文Spark系列（四十八）Spark sql中自定义UDF函数

在使用sparksql的时候，除了系统内置的一些函数之外，我们还可以自定义UDF函数，然后在查询的时候使用这个UDF函数即可。整个UDF函数的流程如下：这个UDF其实就是一个方法，在使用的时候传入一个值然后返回一个新...

Rae spark系列2022-12-131654 阅读0 评论

Spark系列（四十七）Spark sql中内置的聚合函数

热文Spark系列（四十七）Spark sql中内置的聚合函数

我们知道在spark sql中最主要的就是编写sql语句来处理数据，在使用mysql的时候，我们可以看到有很多内置函数，在spark中也同样可以兼容sql03标准的sql，所以这里也有很多的内置函数，本篇我们主要介绍...

Rae spark系列2022-12-131092 阅读0 评论

Spark系列（四十六）Spark sql中内置的标量函数

Spark系列（四十六）Spark sql中内置的标量函数

我们知道在spark sql中最主要的就是编写sql语句来处理数据，在使用mysql的时候，我们可以看到有很多内置函数，在spark中也同样可以兼容sql03标准的sql，所以这里也有很多的内置函数，本篇我们主要介绍...

Rae spark系列2022-12-13872 阅读0 评论

Spark案例介绍（四）使用sparksql的方式实现单词计数

热文Spark案例介绍（四）使用sparksql的方式实现单词计数

在前面我们基础内容介绍的比较多，这篇我们使用spark sql来实操一下某些场景业务。本篇介绍的是使用sparksql的方式实现单词计数，同时我们会演示使用dataframe和dataset两种方式来实现单词计数。下...

Rae spark系列2022-12-131041 阅读0 评论

Spark Sql中如何直接从mysql中提取数据创建临时视图？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-13)

673 1