大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

Hadoop系列（八）HDFS的副本

热文Hadoop系列（八）HDFS的副本

在hdfs文件存储中，每一个block块都会有副本，默认的副本数是3，这里我们也可以直接改，修改的文件还是hdfs-core.xml。文件的位置在：${hadoop_home}/etc/hadoop/hdfs-cor...

Rae hadoop系列2023-02-091145 阅读1 评论

Hadoop系列（七）HDFS的block块大小配置

热文Hadoop系列（七）HDFS的block块大小配置

HDFS 将所有的⽂件全部抽象成为 block 块来进⾏存储，不管⽂件⼤⼩，全部⼀视同仁都是以 block 块的统⼀⼤⼩和形式进⾏存储，⽅便我们的分布式⽂件系统对⽂件的管理。所有的⽂件都是以 block 块的⽅式存放...

Rae hadoop系列2023-02-091771 阅读0 评论

Hadoop系列（六）Hdfs的安全模式

Hadoop系列（六）Hdfs的安全模式

安全模式是hadoop的⼀种保护机制，⽤于保证集群中的数据块的安全性。当集群启动的时候，会⾸先进⼊安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数（即参数dfs.replication）是3...

Rae hadoop系列2023-02-09691 阅读0 评论

Hadoop系列（五）Hdfs运维之配置文件限额

Hadoop系列（五）Hdfs运维之配置文件限额

在一个hadoop集群里面，我们经常会涉及到多个用户在操作整个集群，因为对于用户之间，我们经常会把这些用户分开，不允许a用户操作b用户的文件，同时像linux一样，每一个非root用户只能在自己的目录里面存放文件。但...

Rae hadoop系列2023-02-09925 阅读0 评论

Hadoop系列（四）Hdfs的常用操作命令

Hadoop系列（四）Hdfs的常用操作命令

hdfs是一个分布式文件系统，所以在hadoop中，我们可以直接在命令行里面像linux操作文件一样的方式操作hdfs系统上的文件。下面我们来分别演示下。特别说明1、在操作hadoop的时候我们可以使用两种命令，分别...

Rae hadoop系列2023-02-09807 阅读0 评论

Hadoop系列（三）Hdfs的特性有哪些？

Hadoop系列（三）Hdfs的特性有哪些？

在前面我们已经介绍了hdfs系统就是一个文件存储系统，这篇文章我们介绍下hdfs的特性。一、主从架构HDFS 采⽤ master/slave 架构。⼀般⼀个 HDFS 集群是有⼀个 Namenode 和⼀定数⽬的Da...

Rae hadoop系列2023-02-09872 阅读0 评论

Hadoop系列（二）Hdfs介绍

热文Hadoop系列（二）Hdfs介绍

Hadoop 分布式系统框架中，⾸要的基础功能就是⽂件系统，在 Hadoop 中使⽤FileSystem 这个抽象类来表示我们的⽂件系统，这个抽象类下⾯有很多⼦实现类，究竟使⽤哪⼀种，需要看我们具体的实现类，在我们实...

Rae hadoop系列2023-02-091444 阅读0 评论

Hadoop系列（一）Hadoop介绍

Hadoop系列（一）Hadoop介绍

做过大数据行业的同学，应该都对hadoop不陌生，曾经2011年左右，Hadoop在国内开始火爆，至今已经走过了10多个年头，但是他目前仍是大家做大数据相关不可或缺的一部分。所以从这篇文章开始我们介绍下hadoop相...

Rae hadoop系列2023-02-09995 阅读0 评论

Flink流处理系列（二）standalone集群安装

热文Flink流处理系列（二）standalone集群安装

上一篇我们介绍了flink流处理的第一个demo，即wordcount。同时我们也演示了把job任务提交到flink的standalone集群里面。这篇文章我们介绍下如何安装部署flink的standalone集群。...

Rae flink系列2022-12-281771 阅读0 评论

Flink流处理系列（一）对接kafka演示Flink流处理的wordcount

热文Flink流处理系列（一）对接kafka演示Flink流处理的wordcount

在前面我们介绍了flink相关的知识点，从本文开始我们着重介绍下flink里面的流处理。因为在flink里面，他的流处理使用范围是最广的，主要是由于他相对于spark来说，这里的流处理是准实时的，可以实现毫秒级别处理...

Rae flink系列2022-12-281247 阅读0 评论

Spark系列（五十五）Spark Structured Streaming流处理的水印介绍

热文Spark系列（五十五）Spark Structured Streaming流处理的水印介绍

在使用spark流处理的时候，我们会经常涉及到时间窗口函数，但是由于生产环境中消息队列或者其他的数据源他不总是及时到达这条数据，举个例子：有一条10点10分产生的数据，他被及时的放入到了kafka里面，但是由于消费者...

Rae spark系列2022-12-151174 阅读0 评论

Spark案例介绍（六）spark structured streaming配合kafka实现滚动窗口数据统计

热文Spark案例介绍（六）spark structured streaming配合kafka实现滚动窗口数据统计

在生活中我们经常会遇到比如在每隔5分钟，统计用户的下单次数，每隔1分钟，统计下股票的涨跌数据等等，这种就是时间窗口相关的应用场景，在实际的工作中我们遇到的比比皆是，因此这篇文章我们主要给大家演示下使用spark st...

Rae spark项目实战2022-12-151101 阅读0 评论

Spark案例介绍（五）使用spark structured streaming实现kafka的读写数据

热文Spark案例介绍（五）使用spark structured streaming实现kafka的读写数据

这篇文章我们完整的演示一下，利用spark structured streaming编写spark的流处理，从kafka里面消费json，然后把json转换成对象，再利用spark sql进行查询或者join等，计算...

Rae spark项目实战2022-12-141264 阅读0 评论

Spark系列（五十四）Spark Structured Streaming的sink介绍

热文Spark系列（五十四）Spark Structured Streaming的sink介绍

在spark中，进行流处理的方式无外乎就是数据输入源，数据转换，数据写出这3个大的步骤，根据前面的文章知识点，这里的数据输入源在前面我们演示过了kafka，数据转换其实就是各种dataframe的操作，只有最后一个数...

Rae spark系列2022-12-141414 阅读0 评论

Spark系列（五十三）Spark Structured Streaming对接kafka的配置参数

Spark系列（五十三）Spark Structured Streaming对接kafka的配置参数

在上一个案例里面我们演示了使用spark structured streaming对接kafka的数据，但是在代码里面编写比较简单，这里我们完整的列举下使用到的kafka信息参数。一、必选参数：序号参数值说明1kaf...

Rae spark系列2022-12-14881 阅读0 评论