Spark案例介绍(六)spark structured streaming配合kafka实现滚动窗口数据统计 在生活中我们经常会遇到比如在每隔5分钟,统计用户的下单次数,每隔1分钟,统计下股票的涨跌数据等等,这种就是时间窗口相关的应用场景,在实际的工作中我们遇到的比比皆是,因此这篇文章我们主要给大家演示下使用spark st... Rae /spark项目实战 /2022-12-15 /0 评论 /332 阅读
Spark案例介绍(五)使用spark structured streaming实现kafka的读写数据 这篇文章我们完整的演示一下,利用spark structured streaming编写spark的流处理,从kafka里面消费json,然后把json转换成对象,再利用spark sql进行查询或者join等,计算... Rae /spark项目实战 /2022-12-14 /0 评论 /402 阅读
Spark系列(五十二)Spark Structured Streaming介绍 在前面我们演示了spark streaming的介绍,同时我们也提到过在spark2.x的部分里面提供了全新的结构化流处理也就是这里的spark structured streaming。这两个都是spark的流处理... Rae /spark系列 /2022-12-14 /0 评论 /245 阅读
Spark系列(五十一)Spark Streaming介绍 在spark中,除了提供批处理(前面的文章主要是基于批处理来介绍的),还提供有流处理的方法,也就是我们可以从消息队列等场景里面源源不断的获取数据回来进行处理,此时spark的应用程序就成为了一个常驻进程,只要有数据流... Rae /spark系列 /2022-12-14 /0 评论 /262 阅读
Spark系列(五十)Spark sql应用程序调优涉及的参数信息 在前面的文章我们介绍了很多spark sql相关的内容,这篇文章列举下在使用spark sql编写应用程序的时候,会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。序号参数默认值说明1spar... Rae /spark系列 /2022-12-14 /0 评论 /477 阅读
Spark Sql应用程序,如何调整shuffle的分区大小? Spark Sql应用程序在运行的时候会进行shuffle操作,spark默认是shuffle分区为200个,在实际过程中造成大量的浪费及影响程序的执行效率,请问如何修改这个值?... 帅平 /大数据 /2022-12-14 /1 评论 /444 阅读
Spark系列(四十九)Spark sql中join连接 在spark sql中,我们还会经常遇到join的使用。例如把两个表进行合并或者筛选结果等场景。在spark中使用join和在数据库中使用join差别不大。下面先介绍下spark sql中支持哪些join。序号类型描... Rae /spark系列 /2022-12-13 /0 评论 /386 阅读