Spark

这里整理Spark相关的文章与实践记录，内容以问题排查、使用经验和项目笔记为主。

Spark系列（四十三）Spark sql中DataFrame API

Spark系列（四十三）Spark sql中DataFrame API

在前面我们介绍了spark sql其实操作的主要是DataFrame，那么对于DataFrame有哪些API供操作呢？下面列举一下：序号函数含义示例1select查询数据val usersDF = sc.parall...

Rae spark系列2022-12-12685 阅读0 评论

Spark系列（四十二）Spark sql从文件中读取数据创建DataFrame

Spark系列（四十二）Spark sql从文件中读取数据创建DataFrame

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇文章介绍从文件中读取数据创建DataFrame。其实从文件中读取文件创建DataFr...

Rae spark系列2022-12-12752 阅读0 评论

Spark系列（四十一）Spark sql从RDD中创建DataFrame

Spark系列（四十一）Spark sql从RDD中创建DataFrame

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇文章介绍从RDD中创建DataFrame。从RDD中创建dataframe一共会出现...

Rae spark系列2022-12-12737 阅读0 评论

Spark系列（四十）Spark sql从元组中创建DataFrame

Spark系列（四十）Spark sql从元组中创建DataFrame

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇是第一篇，介绍从元组中创建DataFrame。下面来演示一下：package org...

Rae spark系列2022-12-12797 阅读0 评论

Spark系列（三十九）SparkSql读取文件自定义schema

Spark系列（三十九）SparkSql读取文件自定义schema

在前面我们演示sparksql读取json文件和csv文件的时候，我们了解到json文件会自动映射schema，但是在csv格式的文件或者其他text文件的时候，有时候是没有字段名的，首行就是数据，那么在读取的时候，...

Rae spark系列2022-12-12814 阅读0 评论

Spark系列（三十八）SparkSql中Dataframe支持的数据类型有哪些？

Spark系列（三十八）SparkSql中Dataframe支持的数据类型有哪些？

在前面我们介绍了在操作spark sql的时候使用的是DataFrame数据结构。整个DataFrame可以看作是在内存中的一个表。那么对于数据表，每一个字段应该都有类型，因此这里我们列举下DataFrame支持哪些...

Rae spark系列2022-12-12866 阅读0 评论

Spark系列（三十七）SparkSession的创建模板

热文Spark系列（三十七）SparkSession的创建模板

在spark2.x之后，我们知道所有的入口类都是从SparkSession开始的，因此在编写spark应用程序的时候，首先第一步就是创建SparkSession。在前面的案例里面我们介绍编写的用例非常的简单，但是在真...

Rae spark系列2022-12-121150 阅读0 评论

Spark系列（三十六）SparkSql操作json格式和CSV格式的数据源介绍

热文Spark系列（三十六）SparkSql操作json格式和CSV格式的数据源介绍

在前面的演示案例里面，我们介绍了编写一个简单的spark sql，同时也介绍过读取csv或者json格式很方便，所以这篇文章我们介绍下spark sql读取csv和json格式的数据源。一、读取json格式在spar...

Rae spark系列2022-12-091153 阅读0 评论

Spark系列（三十五）SparkSql使用demo

Spark系列（三十五）SparkSql使用demo

在前面我们介绍了spark sql的构成等等，这篇文章我们来演示下spark sql的使用，并且编写一个demo给大家看看。一、准备json数据在实际的生产环境中，我们分析数据最常见的数据源格式就是csv或者json...

Rae spark系列2022-12-09963 阅读0 评论

Spark Sql应用程序由哪几部分组成？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-09)

721 1

Spark Sql有哪些组件？ Spark SparkSQL

问题分类：大数据最新回答：3年前 (2022-12-08)

686 1

Spark系列（三十四）SparkSql的架构组成

Spark系列（三十四）SparkSql的架构组成

在spark sql中，整个spark sql的架构图如下：从上图中我们可以看到可以分为3层，分别是：语言API层。下面分别介绍一下：语言API层spark支持python，HiveQL，Scala，Java等编程语...

Rae spark系列2022-12-08785 阅读0 评论

Spark系列（三十三）SparkSql数据抽象

Spark系列（三十三）SparkSql数据抽象

在spark中，前面的系列操作可以让我们自由的操作各种rdd的数据，从本篇文章开始，我们开始介绍更加简化理解和开发的模块，即Spark Sql数据抽象。Spark Sql可以看作是把以前的rdd再进行了一次抽象，即我...

Rae spark系列2022-12-08793 阅读0 评论

Spark案例介绍（三）二次排序

Spark案例介绍（三）二次排序

在使用spark的场景里面，二次排序是我们经常会使用到的应用场景，那么什么是二次排序呢？二次排序就是类似把key-value pair的rdd首先根据key进行排序，再根据value进行排序。这个案例我们介绍根据sp...

Rae spark项目实战2022-12-08933 阅读0 评论

Spark案例介绍（二）合并小文件

Spark案例介绍（二）合并小文件

在spark的场景里面我们有时候会遇到很多场景，例如不同的客户端收集的日志都保存到对应client目录里面，此时如果我们分析的时候，日志文件都分布在不同的目录里面，而且可能由于写文件的规则产生很多个小文件，那有没有办...

Rae spark项目实战2022-12-08937 阅读0 评论