全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

你是如何理解Spark中血统(RDD)的概念?它的作用是什么？

提问者：帅平问题分类：面试刷题

Spark

发布于：3年前 (2023-02-27) IP属地：四川省

3 个回答

拜你所赐

特点

1、容错性：RDD具有容错性，因为它会自动将数据划分成多个分区，并在集群中的多个节点上进行复制，从而实现数据的高可靠性和容错性。
2、数据共享：RDD允许多个并行操作共享相同的数据集合，以便在不同的计算步骤中复用数据，从而避免了重复的IO操作，提高了计算效率。
3、优化计算：RDD通过支持多个转换操作和行动操作，允许进行复杂的计算和数据分析，同时也支持对计算过程进行优化，以便最大限度地减少计算成本。
4、血统跟踪：RDD通过记录其前一个RDD的依赖关系，构建了一个有向无环图（DAG）来跟踪其数据处理流程，从而允许Spark在节点故障时重新计算丢失的分区，实现了弹性计算。
5、血统是指RDD之间的依赖关系，这种依赖关系可以通过DAG（有向无环图）来表示。每个RDD都会记录其父RDD的引用和产生该RDD的转换操作，这样，如果某个RDD的分区丢失或出现故障，Spark可以根据血统信息重新计算该RDD的丢失分区，实现了弹性计算。因此，RDD的血统跟踪是Spark实现容错性的重要机制。

发布于：3年前 (2023-02-27) IP属地：四川省

相视而笑

作用

提供了一个抽象的数据模型，将具体的应用逻辑表达为一系列转换操作(函数)。另外不同RDD之间的转换操作之间还可以形成依赖关系，进而实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销，并且还提供了更多的API(map/reduec/filter/groupBy...)

发布于：3年前 (2023-02-27) IP属地：四川省

酷味有余

概念

RDD是弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算 的集合。

发布于：3年前 (2023-02-27) IP属地：四川省

我来回答