正文

Spark系列（四）Spark技术栈之Spark Structured Streaming

Rae V管理员 /2022-11-27/946阅读/0评论

1127

此篇文章发布距今已超过1333天，您需要注意文章的内容或图片是否可用！

首先我们上一张spark的技术栈框架图

结合上面的图，这篇文章我们主要介绍spark的spark Structured Streaming技术栈。

这里可能大家会问，在图中没有看到spark Structured Streaming，只有一个spark Streaming的部分，这里我们介绍一下，在第一代的spark里面，这里的流计算被称为Spark Streaming，但是在第二代的Spark中，这里的流计算被更改为Spark Structured Streaming了。同时内部也有一些变化，Spark Streaming中操作的是rdd对象，Spark Structured Streaming中操作的是DataFrame对象。

备注：DataFrame对象比rdd对象更易于理解。

Spark Structured Streaming的特点

Spark Structured Streaming（以前是Spark Streaming）能够以极高的吞吐量和容错的方式处理来自各个数据源的实时数据流。

Spark Structured Streaming 支持的数据源

Spark Structured Streaming 支持的数据源有：kafka，rocketmq，rabbitmq，redis，flume，hdfs，tcp等等。

备注：

1、spark的流处理在第一代（spark2.1之前的版本）里面，被称为Spark Streaming。在第二代（spark2.1及之后的版本）里面，被称为Spark Structured Streaming。

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路

正文

Spark系列（四）Spark技术栈之Spark Structured Streaming

Spark Structured Streaming的特点

Spark Structured Streaming 支持的数据源

继续看这个主题

相关阅读

如何使用阿里的Arthas快速定位正在线上运行的程序问题

JVM常用的调优参数

网易研发团队是如何做故障演练的？

IT系统如何定位线上问题？

java性能可视化调优工具VisualVM插件之Visual GC

使用MAT分析java内存溢出的原因

职场经验 | 谈面试中各种各样的坑

java性能可视化调优工具VisualVM

发表评论取消回复

还没有评论，来说两句吧...

目录[+]