Rae 第98页

Spark系列（四十六）Spark sql中内置的标量函数

我们知道在spark sql中最主要的就是编写sql语句来处理数据，在使用mysql的时候，我们可以看到有很多内置函数，在spark中也同样可以兼容sql03标准的sql，所以这里也有很多的内置函数，本篇我们主要介绍...

Rae /spark系列 /2022-12-13 /0 评论 /680 阅读

在前面我们基础内容介绍的比较多，这篇我们使用spark sql来实操一下某些场景业务。本篇介绍的是使用sparksql的方式实现单词计数，同时我们会演示使用dataframe和dataset两种方式来实现单词计数。下...

Rae /spark系列 /2022-12-13 /0 评论 /861 阅读

在前面我们大部分篇幅都介绍的是dataframe，这篇文章我们介绍下dataset。dataset是spark1.6开始提供的函数编程API，在spark2.x之后，spark把dataset和dataframe给融...

Rae /spark系列 /2022-12-13 /0 评论 /907 阅读

在实际的spark应用程序开发中，我们对于dataframe进行各种操作之后会得到本业务的最终数据，此时那么我们肯定是需要把数据存储起来，那么DataFrame如何做存储呢？第一种方式：存储到文件在前面的案例里面，我...

Rae /spark系列 /2022-12-12 /0 评论 /587 阅读

在前面我们介绍了spark sql其实操作的主要是DataFrame，那么对于DataFrame有哪些API供操作呢？下面列举一下：序号函数含义示例1select查询数据val usersDF = sc.parall...

Rae /spark系列 /2022-12-12 /0 评论 /558 阅读

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇文章介绍从文件中读取数据创建DataFrame。其实从文件中读取文件创建DataFr...

Rae /spark系列 /2022-12-12 /0 评论 /593 阅读

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇文章介绍从RDD中创建DataFrame。从RDD中创建dataframe一共会出现...

Rae /spark系列 /2022-12-12 /0 评论 /564 阅读

在spark sql中，我们知道操作的数据都是DataFrame，因此从这篇文章开始，我们介绍几种创建DataFrame的方式，这篇是第一篇，介绍从元组中创建DataFrame。下面来演示一下：package org...

Rae /spark系列 /2022-12-12 /0 评论 /650 阅读

在前面我们演示sparksql读取json文件和csv文件的时候，我们了解到json文件会自动映射schema，但是在csv格式的文件或者其他text文件的时候，有时候是没有字段名的，首行就是数据，那么在读取的时候，...

Rae /spark系列 /2022-12-12 /0 评论 /646 阅读

在前面我们介绍了在操作spark sql的时候使用的是DataFrame数据结构。整个DataFrame可以看作是在内存中的一个表。那么对于数据表，每一个字段应该都有类型，因此这里我们列举下DataFrame支持哪些...

Rae /spark系列 /2022-12-12 /0 评论 /717 阅读

在spark2.x之后，我们知道所有的入口类都是从SparkSession开始的，因此在编写spark应用程序的时候，首先第一步就是创建SparkSession。在前面的案例里面我们介绍编写的用例非常的简单，但是在真...

Rae /spark系列 /2022-12-12 /0 评论 /966 阅读

在前面的演示案例里面，我们介绍了编写一个简单的spark sql，同时也介绍过读取csv或者json格式很方便，所以这篇文章我们介绍下spark sql读取csv和json格式的数据源。一、读取json格式在spar...

Rae /spark系列 /2022-12-09 /0 评论 /905 阅读

在前面我们介绍了spark sql的构成等等，这篇文章我们来演示下spark sql的使用，并且编写一个demo给大家看看。一、准备json数据在实际的生产环境中，我们分析数据最常见的数据源格式就是csv或者json...

Rae /spark系列 /2022-12-09 /0 评论 /806 阅读

在spark sql中，整个spark sql的架构图如下：从上图中我们可以看到可以分为3层，分别是：语言API层。下面分别介绍一下：语言API层spark支持python，HiveQL，Scala，Java等编程语...

Rae /spark系列 /2022-12-08 /0 评论 /619 阅读

在spark中，前面的系列操作可以让我们自由的操作各种rdd的数据，从本篇文章开始，我们开始介绍更加简化理解和开发的模块，即Spark Sql数据抽象。Spark Sql可以看作是把以前的rdd再进行了一次抽象，即我...

Rae /spark系列 /2022-12-08 /0 评论 /638 阅读