Hadoop系列(二)Hdfs介绍 Hadoop 分布式系统框架中,⾸要的基础功能就是⽂件系统,在 Hadoop 中使⽤FileSystem 这个抽象类来表示我们的⽂件系统,这个抽象类下⾯有很多⼦实现类,究竟使⽤哪⼀种,需要看我们具体的实现类,在我们实... Rae /hadoop系列 /2023-02-09 /0 评论 /578 阅读
Hadoop系列(一)Hadoop介绍 做过大数据行业的同学,应该都对hadoop不陌生,曾经2011年左右,Hadoop在国内开始火爆,至今已经走过了10多个年头,但是他目前仍是大家做大数据相关不可或缺的一部分。所以从这篇文章开始我们介绍下hadoop相... Rae /hadoop系列 /2023-02-09 /0 评论 /373 阅读
Flink流处理系列(二)standalone集群安装 上一篇我们介绍了flink流处理的第一个demo,即wordcount。同时我们也演示了把job任务提交到flink的standalone集群里面。这篇文章我们介绍下如何安装部署flink的standalone集群。... Rae /flink系列 /2022-12-28 /0 评论 /714 阅读
Flink流处理系列(一)对接kafka演示Flink流处理的wordcount 在前面我们介绍了flink相关的知识点,从本文开始我们着重介绍下flink里面的流处理。因为在flink里面,他的流处理使用范围是最广的,主要是由于他相对于spark来说,这里的流处理是准实时的,可以实现毫秒级别处理... Rae /flink系列 /2022-12-28 /0 评论 /565 阅读
Spark系列(五十五)Spark Structured Streaming流处理的水印介绍 在使用spark流处理的时候,我们会经常涉及到时间窗口函数,但是由于生产环境中消息队列或者其他的数据源他不总是及时到达这条数据,举个例子:有一条10点10分产生的数据,他被及时的放入到了kafka里面,但是由于消费者... Rae /spark系列 /2022-12-15 /0 评论 /340 阅读
Spark案例介绍(六)spark structured streaming配合kafka实现滚动窗口数据统计 在生活中我们经常会遇到比如在每隔5分钟,统计用户的下单次数,每隔1分钟,统计下股票的涨跌数据等等,这种就是时间窗口相关的应用场景,在实际的工作中我们遇到的比比皆是,因此这篇文章我们主要给大家演示下使用spark st... Rae /spark项目实战 /2022-12-15 /0 评论 /354 阅读
Spark案例介绍(五)使用spark structured streaming实现kafka的读写数据 这篇文章我们完整的演示一下,利用spark structured streaming编写spark的流处理,从kafka里面消费json,然后把json转换成对象,再利用spark sql进行查询或者join等,计算... Rae /spark项目实战 /2022-12-14 /0 评论 /430 阅读
Spark系列(五十四)Spark Structured Streaming的sink介绍 在spark中,进行流处理的方式无外乎就是数据输入源,数据转换,数据写出这3个大的步骤,根据前面的文章知识点,这里的数据输入源在前面我们演示过了kafka,数据转换其实就是各种dataframe的操作,只有最后一个数... Rae /spark系列 /2022-12-14 /0 评论 /514 阅读
Spark系列(五十三)Spark Structured Streaming对接kafka的配置参数 在上一个案例里面我们演示了使用spark structured streaming对接kafka的数据,但是在代码里面编写比较简单,这里我们完整的列举下使用到的kafka信息参数。一、必选参数:序号参数值说明1kaf... Rae /spark系列 /2022-12-14 /0 评论 /302 阅读
Spark系列(五十二)Spark Structured Streaming介绍 在前面我们演示了spark streaming的介绍,同时我们也提到过在spark2.x的部分里面提供了全新的结构化流处理也就是这里的spark structured streaming。这两个都是spark的流处理... Rae /spark系列 /2022-12-14 /0 评论 /264 阅读