Spark案例介绍(六)spark structured streaming配合kafka实现滚动窗口数据统计 在生活中我们经常会遇到比如在每隔5分钟,统计用户的下单次数,每隔1分钟,统计下股票的涨跌数据等等,这种就是时间窗口相关的应用场景,在实际的工作中我们遇到的比比皆是,因此这篇文章我们主要给大家演示下使用spark st... Rae /spark项目实战 /2022-12-15 /0 评论 /251 阅读
Spark案例介绍(五)使用spark structured streaming实现kafka的读写数据 这篇文章我们完整的演示一下,利用spark structured streaming编写spark的流处理,从kafka里面消费json,然后把json转换成对象,再利用spark sql进行查询或者join等,计算... Rae /spark项目实战 /2022-12-14 /0 评论 /313 阅读
Spark案例介绍(三)二次排序 在使用spark的场景里面,二次排序是我们经常会使用到的应用场景,那么什么是二次排序呢?二次排序就是类似把key-value pair的rdd首先根据key进行排序,再根据value进行排序。这个案例我们介绍根据sp... Rae /spark项目实战 /2022-12-08 /0 评论 /181 阅读
Spark案例介绍(二)合并小文件 在spark的场景里面我们有时候会遇到很多场景,例如不同的客户端收集的日志都保存到对应client目录里面,此时如果我们分析的时候,日志文件都分布在不同的目录里面,而且可能由于写文件的规则产生很多个小文件,那有没有办... Rae /spark项目实战 /2022-12-08 /0 评论 /263 阅读
Spark案例介绍(一)TopN案例(找出班里成绩排名前10的学生) 这篇文章我们介绍一下spark的案例,也就是大家常见的TopN的问题,这个主要介绍案例,本案例的场景是一个班里有20个学生,统计下所有学生的前5名。[NeadPay]... Rae /spark项目实战 /2022-12-08 /0 评论 /184 阅读