首先我们上一张spark的技术栈框架图
结合上面的图,这篇文章我们主要介绍spark的spark Structured Streaming技术栈。
这里可能大家会问,在图中没有看到spark Structured Streaming,只有一个spark Streaming的部分,这里我们介绍一下,在第一代的spark里面,这里的流计算被称为Spark Streaming,但是在第二代的Spark中,这里的流计算被更改为Spark Structured Streaming了。同时内部也有一些变化,Spark Streaming中操作的是rdd对象,Spark Structured Streaming中操作的是DataFrame对象。
备注:DataFrame对象比rdd对象更易于理解。
Spark Structured Streaming的特点
Spark Structured Streaming(以前是Spark Streaming)能够以极高的吞吐量和容错的方式处理来自各个数据源的实时数据流。
Spark Structured Streaming 支持的数据源
Spark Structured Streaming 支持的数据源有:kafka,rocketmq,rabbitmq,redis,flume,hdfs,tcp等等。
备注:
1、spark的流处理在第一代(spark2.1之前的版本)里面,被称为Spark Streaming。在第二代(spark2.1及之后的版本)里面,被称为Spark Structured Streaming。
还没有评论,来说两句吧...