Spark Sql有哪些组件?

提问者:帅平 问题分类:大数据
Spark Sql有哪些组件?
1 个回答
天然纯勋勋
天然纯勋勋
Sparksql有3大组件,分别是:Spark SQL DataFrame、Spark SQL Dataset、Spark Catalyst Optimizer。具体示例如下:
Spark SQL DataFrame
RDD 有一些缺点。首先,没有处理结构化数据的相关准备,也没有用于处理结构化数据的优化引擎。其次,基于属性,开发人员必须优化每个RDD。Spark DataFrame是一个分布式的数据集合,按顺序排列成指定的列。Spark DataFrame 与关系型数据库中的表非常相似。

Spark SQL Dataset
在 Spark 1.6 版本中,引入了接口是 Dataset。这个接口综合了 RDD 的优点以及 Spark SQL 的优化执行引擎的优点。为了实现 JVM 对象和表格表示之间的转换,使用了编码器的概念。使用 JVM 对象,可以接收数据集,并且必须使用 map、filter 等函数转换来修改它们。Dataset API 在 Scala 和 Java 中都可用,但在 Python 中不支持。

Spark Catalyst Optimizer
Catalyst optimizer 是 Spark SQL 中使用的优化器,所有由 Spark SQL和 DataFrame DSL 编写的查询都是通过这个工具进行优化的。这个优化器比 RDD 更好,因此系统的性能得到了提高。
发布于:2年前 (2022-12-08) IP属地:四川省
我来回答