大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

Spark系列（三十八）SparkSql中Dataframe支持的数据类型有哪些？

Spark系列（三十八）SparkSql中Dataframe支持的数据类型有哪些？

在前面我们介绍了在操作spark sql的时候使用的是DataFrame数据结构。整个DataFrame可以看作是在内存中的一个表。那么对于数据表，每一个字段应该都有类型，因此这里我们列举下DataFrame支持哪些...

Rae spark系列2022-12-12854 阅读0 评论

Spark系列（三十七）SparkSession的创建模板

热文Spark系列（三十七）SparkSession的创建模板

在spark2.x之后，我们知道所有的入口类都是从SparkSession开始的，因此在编写spark应用程序的时候，首先第一步就是创建SparkSession。在前面的案例里面我们介绍编写的用例非常的简单，但是在真...

Rae spark系列2022-12-121132 阅读0 评论

Spark系列（三十六）SparkSql操作json格式和CSV格式的数据源介绍

热文Spark系列（三十六）SparkSql操作json格式和CSV格式的数据源介绍

在前面的演示案例里面，我们介绍了编写一个简单的spark sql，同时也介绍过读取csv或者json格式很方便，所以这篇文章我们介绍下spark sql读取csv和json格式的数据源。一、读取json格式在spar...

Rae spark系列2022-12-091140 阅读0 评论

Spark系列（三十五）SparkSql使用demo

Spark系列（三十五）SparkSql使用demo

在前面我们介绍了spark sql的构成等等，这篇文章我们来演示下spark sql的使用，并且编写一个demo给大家看看。一、准备json数据在实际的生产环境中，我们分析数据最常见的数据源格式就是csv或者json...

Rae spark系列2022-12-09948 阅读0 评论

Spark系列（三十四）SparkSql的架构组成

Spark系列（三十四）SparkSql的架构组成

在spark sql中，整个spark sql的架构图如下：从上图中我们可以看到可以分为3层，分别是：语言API层。下面分别介绍一下：语言API层spark支持python，HiveQL，Scala，Java等编程语...

Rae spark系列2022-12-08771 阅读0 评论

Spark系列（三十三）SparkSql数据抽象

Spark系列（三十三）SparkSql数据抽象

在spark中，前面的系列操作可以让我们自由的操作各种rdd的数据，从本篇文章开始，我们开始介绍更加简化理解和开发的模块，即Spark Sql数据抽象。Spark Sql可以看作是把以前的rdd再进行了一次抽象，即我...

Rae spark系列2022-12-08774 阅读0 评论

Spark案例介绍（三）二次排序

Spark案例介绍（三）二次排序

在使用spark的场景里面，二次排序是我们经常会使用到的应用场景，那么什么是二次排序呢？二次排序就是类似把key-value pair的rdd首先根据key进行排序，再根据value进行排序。这个案例我们介绍根据sp...

Rae spark项目实战2022-12-08922 阅读0 评论

Spark案例介绍（二）合并小文件

Spark案例介绍（二）合并小文件

在spark的场景里面我们有时候会遇到很多场景，例如不同的客户端收集的日志都保存到对应client目录里面，此时如果我们分析的时候，日志文件都分布在不同的目录里面，而且可能由于写文件的规则产生很多个小文件，那有没有办...

Rae spark项目实战2022-12-08924 阅读0 评论

Spark案例介绍（一）TopN案例（找出班里成绩排名前10的学生）

Spark案例介绍（一）TopN案例（找出班里成绩排名前10的学生）

这篇文章我们介绍一下spark的案例，也就是大家常见的TopN的问题，这个主要介绍案例，本案例的场景是一个班里有20个学生，统计下所有学生的前5名。[NeadPay]...

Rae spark项目实战2022-12-08812 阅读0 评论

Spark系列（三十二）Accumulator累加器

Spark系列（三十二）Accumulator累加器

在spark中，我们可能会在某些节点上使用同一个变量的值做加法，最后统计总的结果。这时候spark为我们提供了一个累加器。也就是声明一个累加器，然后我们可以在各个executor对当前的累加器进行计数操作。下面演示一...

Rae spark系列2022-12-08809 阅读0 评论

Spark系列（三十一）Broadcast广播变量

Spark系列（三十一）Broadcast广播变量

在spark中，我们可能会在某个节点上使用同一个变量的值，所以这时候spark为我们提供了一个广播变量。也就是把某个值做成广播变量，然后spark会把这个变量作为一个只读属性的变量分发给所有的集群节点。此时这些节点可...

Rae spark系列2022-12-08664 阅读0 评论

Spark系列（三十）关于RDD的分区调整介绍

Spark系列（三十）关于RDD的分区调整介绍

在spark应用程序执行的时候，每一个rdd都会有分区，当我们没有指定分区的时候，则分区数量是根据spark的配置项：spark.default.parallelism决定的，但是我们常常需要根据spark的集群信息...

Rae spark系列2022-12-08823 阅读0 评论

Spark系列（二十九）关于RDD的检查点Checkpoint

Spark系列（二十九）关于RDD的检查点Checkpoint

在spark中，特别是流计算的时候使用这种RDD的检查点会比较多。在spark的整个运行中，我们可以知道整个rdd会形成一个拓扑图，里面主要是各个rdd的依赖信息。如下图：这篇文章我们介绍spark的检查点，也就是c...

Rae spark系列2022-12-08827 阅读0 评论

Spark系列（二十八）关于RDD的持久化

Spark系列（二十八）关于RDD的持久化

在spark应用程序执行的时候，整个链路会产生非常多的rdd。在前面我们介绍过使用transformation的时候，只有遇到action的时候才会执行相关的transformation，也就是这些rdd是惰性执行的...

Rae spark系列2022-12-07691 阅读0 评论

Spark系列（二十七）关于combineByKey的使用说明

热文Spark系列（二十七）关于combineByKey的使用说明

在spark中，对于rdd进行combineByKey，那这个rdd一定是一个key-value pair 类型的rdd。在这里使用combineByKey的时候，可能会遇到TupleN的参数格式，例如，如果我们得数...

Rae spark系列2022-12-073192 阅读0 评论