热文大数据实战系列(五)Spark 实现读取kafka数据写入doris 日常工作中直接读取kafka的数据写入doris也是一个非常常见的场景,下面演示下使用spark读取kafka的数据写入doris。直接上代码:val kafkaSource = spark .readStream ... Raespark项目实战2024-03-281297 阅读0 评论
热文大数据实战系列(四)Spark 实现读取kafka数据写入hive 上文《大数据实战系列(三)Spark 实现读取hive数据写入kafka》我们实现了利用spark读取hive的数据写入kafka,本文的话我们实现利用spark读取kafka的数据然后写入hive中。直接上代码:v... Raespark项目实战2024-03-281324 阅读0 评论
热文大数据实战系列(三)Spark 实现读取hive数据写入kafka 本文的话,我们再介绍下使用使用spark实现读取hive的数据,然后把数据写入到kafka,直接上代码: val spark = SparkSession.builder() .appName("HiveToKafk... Raespark项目实战2024-03-281833 阅读0 评论
热文大数据实战系列(二)Spark 实现读取hive数据写入doris 上文《大数据实战系列(一)Spark 实现读取doris数据写入hive》我们实现了使用spark读取doris数据然后写入hive,这里的话我们来实现读取hive数据,写入doris。直接上代码: val spar... Raespark项目实战2024-03-281456 阅读0 评论
热文大数据实战系列(一)Spark 实现读取doris数据写入hive 这个系列的话我们主要是记录一些实战的代码,方便大家在使用的时候实现直接照抄即可。本文主要介绍的是使用Spark实现读取doris数据并且写入hive的案例,直接上代码://初始化spark env val spark... Raespark项目实战2024-03-281687 阅读0 评论
热文Spark案例介绍(六)spark structured streaming配合kafka实现滚动窗口数据统计 在生活中我们经常会遇到比如在每隔5分钟,统计用户的下单次数,每隔1分钟,统计下股票的涨跌数据等等,这种就是时间窗口相关的应用场景,在实际的工作中我们遇到的比比皆是,因此这篇文章我们主要给大家演示下使用spark st... Raespark项目实战2022-12-151059 阅读0 评论
热文Spark案例介绍(五)使用spark structured streaming实现kafka的读写数据 这篇文章我们完整的演示一下,利用spark structured streaming编写spark的流处理,从kafka里面消费json,然后把json转换成对象,再利用spark sql进行查询或者join等,计算... Raespark项目实战2022-12-141228 阅读0 评论
Spark案例介绍(三)二次排序 在使用spark的场景里面,二次排序是我们经常会使用到的应用场景,那么什么是二次排序呢?二次排序就是类似把key-value pair的rdd首先根据key进行排序,再根据value进行排序。这个案例我们介绍根据sp... Raespark项目实战2022-12-08960 阅读0 评论
Spark案例介绍(二)合并小文件 在spark的场景里面我们有时候会遇到很多场景,例如不同的客户端收集的日志都保存到对应client目录里面,此时如果我们分析的时候,日志文件都分布在不同的目录里面,而且可能由于写文件的规则产生很多个小文件,那有没有办... Raespark项目实战2022-12-08961 阅读0 评论
Spark案例介绍(一)TopN案例(找出班里成绩排名前10的学生) 这篇文章我们介绍一下spark的案例,也就是大家常见的TopN的问题,这个主要介绍案例,本案例的场景是一个班里有20个学生,统计下所有学生的前5名。[NeadPay]... Raespark项目实战2022-12-08836 阅读0 评论