Spark系列（一）Spark是什么？

Rae V管理员 /2022-11-26/934阅读/0评论

1126

此篇文章发布距今已超过1242天，您需要注意文章的内容或图片是否可用！

Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。它类似于 Hadoop 的 MapReduce，但对于执行批处理来说速度更快、更高效。Apache Spark 可以部署在大量廉价的硬件设备上，以创建大数据并处计算集群。

网上关于spark的介绍非常多，这里我主要囊括几个我们常用的情况即可。

1、spark目前主要应用于批量大数据处理，类似于处理hadoop的mapreduce，主要用于每天定时处理，由于比hadoop的mapreduce处理速度快而成为优先选择的对象。

2、spark应用于流计算处理，主要是在建设数仓或者纯线上流计算业务场景里面使用，但是这块目前有被flink赶超的趋势，有空的同学可以看看flink。

3、spark应用于快速大数据分析的场景，这块也类似于hadoop的mapreduce，但是主要是可能应用在算法模块会比较多一点。

4、spark应用于ETL场景，这块主要应用于现在流程的数据湖和数仓模块的建设会比较多一点。

备注：

1、个人在日常工作生活中flink主要还是应用于在线的流计算应用场景会比较多一点。

2、spark对于工作中，编写大数据处理的场景会更多一点，（可能是个人使用scala编写spark比使用scala编写flink顺手一点）。

3、spark现在在算法模型的领域里面使用场景也会更多一点。

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路

还没有评论，来说两句吧...