RaeV管理员
文章 1946 篇 | 评论 3720 次

作者 Rae 发布的文章

Spark系列(三十五)SparkSql使用demo

在前面我们介绍了spark sql的构成等等,这篇文章我们来演示下spark sql的使用,并且编写一个demo给大家看看。一、准备json数据在实际的生产环境中,我们分析数据最常见的数据源格式就是csv或者json...

Spark系列(三十三)SparkSql数据抽象

在spark中,前面的系列操作可以让我们自由的操作各种rdd的数据,从本篇文章开始,我们开始介绍更加简化理解和开发的模块,即Spark Sql数据抽象。Spark Sql可以看作是把以前的rdd再进行了一次抽象,即我...

Spark案例介绍(三)二次排序

在使用spark的场景里面,二次排序是我们经常会使用到的应用场景,那么什么是二次排序呢?二次排序就是类似把key-value pair的rdd首先根据key进行排序,再根据value进行排序。这个案例我们介绍根据sp...

Spark案例介绍(二)合并小文件

在spark的场景里面我们有时候会遇到很多场景,例如不同的客户端收集的日志都保存到对应client目录里面,此时如果我们分析的时候,日志文件都分布在不同的目录里面,而且可能由于写文件的规则产生很多个小文件,那有没有办...