1 个回答
Spark优点有:
1、Spark把中间数据放到内存中,迭代运算效率高。
1、内存问题
1、Spark把中间数据放到内存中,迭代运算效率高。
Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。
2、Spark 容错性高Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。另外在RDD 计算时可以通过 CheckPoint 来实现容错。
3、Spark更加通用Spark提供的数据集操作类型分为:Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort等多种操作类型,同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。
Spark缺点有:1、内存问题
JVM的内存overhead太大,1G的数据通常需要消耗5G的内存。
2、性能问题由于大量数据被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定。
发布于:2周前 (04-15) IP属地:四川省
我来回答
您需要 登录 后回答此问题!