Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。它类似于 Hadoop 的 MapReduce,但对于执行批处理来说速度更快、更高效。Apache Spark 可以部署在大量廉价的硬件设备上,以创建大数据并处计算集群。
网上关于spark的介绍非常多,这里我主要囊括几个我们常用的情况即可。
1、spark目前主要应用于批量大数据处理,类似于处理hadoop的mapreduce,主要用于每天定时处理,由于比hadoop的mapreduce处理速度快而成为优先选择的对象。
2、spark应用于流计算处理,主要是在建设数仓或者纯线上流计算业务场景里面使用,但是这块目前有被flink赶超的趋势,有空的同学可以看看flink。
3、spark应用于快速大数据分析的场景,这块也类似于hadoop的mapreduce,但是主要是可能应用在算法模块会比较多一点。
4、spark应用于ETL场景,这块主要应用于现在流程的数据湖和数仓模块的建设会比较多一点。
备注:
1、个人在日常工作生活中flink主要还是应用于在线的流计算应用场景会比较多一点。
2、spark对于工作中,编写大数据处理的场景会更多一点,(可能是个人使用scala编写spark比使用scala编写flink顺手一点)。
3、spark现在在算法模型的领域里面使用场景也会更多一点。
还没有评论,来说两句吧...