大数据

这里整理大数据相关的实践记录，主要包括 Flink、Spark、Hive、Hadoop 以及任务调度等方向，内容以问题排查、配置记录和经验总结为主。

zookeeper集群部署教程

zookeeper集群部署教程

在大数据的环境下，我们经常会涉及到zookeeper的部署。在开发与测试环境还好，但是在生产环境的话，我们就需要部署zookeeper集群了，并且zookeeper集群的个数一定要为奇数，所以本文我们演示下zooke...

Rae 大数据2024-02-19971 阅读0 评论

Apache Druid系列（九）Druid删除数据

热文Apache Druid系列（九）Druid删除数据

在druid中删除数据个人感觉是一个非常麻烦的事情，主要是他不能直接编写sql进行删除，只能使用task的方式进行删除。在druid中删除数据主要分为两个步骤，分别是：1、该段必须首先标记为“未使用”。当用户通过协调...

Rae 大数据2024-02-021409 阅读0 评论

Apache Druid系列（八）Druid更新数据说明

热文Apache Druid系列（八）Druid更新数据说明

在druid中不支持更新数据的，如果要涉及到更新数据，则只能使用重新导入数据的方式进行覆盖。所以总体的思路如下：准备一份需要更新的完整数据，例如原始数据是：{"age":40,"birthday":"2019-08-...

Rae 大数据2024-02-021033 阅读0 评论

Apache Druid系列（七）Druid导入kafka的数据

热文Apache Druid系列（七）Druid导入kafka的数据

上文《Apache Druid系列（六）Druid导入本地数据》我们演示了导入本地文件这种有界流的数据，本文的话我们介绍下导入无界流的数据，主要的演示对象是直接导入kafka的数据。下面直接开始1）编写一个kafka...

Rae 大数据2024-02-021086 阅读0 评论

Apache Druid系列（六）Druid导入本地数据

热文Apache Druid系列（六）Druid导入本地数据

上文《Apache Druid系列（五）Druid导入数据介绍》我们介绍了Druid导入数据的方式，本文我们就来介绍下直接使用Druid导入本地数据的案例。下面直接开始。1）创建测试数据这里创建测试数据的话，我们编写...

Rae 大数据2024-02-021096 阅读0 评论

Apache Druid系列（五）Druid导入数据介绍

热文Apache Druid系列（五）Druid导入数据介绍

正常的业务场景中，我们是需要把数据导入到Druid里面去的。所以本文我们介绍下Druid导入数据的方式。目前Druid导入数据的方式主要有2种，分别是：有界流导入和无界流导入。这两种很多区分，就是每次导入的数据是否...

Rae 大数据2024-02-021028 阅读0 评论

Apache Druid系列（四）Druid架构说明

Apache Druid系列（四）Druid架构说明

上文《Apache Druid系列（三）Druid伪集群方式安装》我们演示了Druid集群的安装部署，本文我们来介绍下Druid的部署架构组件信息。整个Druid集群主要由3部分角色组成，分别是：master节点，q...

Rae 大数据2024-02-02899 阅读0 评论

Apache Druid系列（三）Druid伪集群方式安装

Apache Druid系列（三）Druid伪集群方式安装

本文我们来演示下Druid伪集群的安装。前置说明在部署安装druid的时候，一般我们还是建议使用集群的方式进行安装，这样可以做到存算分离，在druid进行安装的时候从大体上主要分为3类节点，分别是：1、master节...

Rae 大数据2024-02-02902 阅读0 评论

Apache Druid系列（二）Druid数据存储介绍

Apache Druid系列（二）Druid数据存储介绍

上文《Apache Druid系列（一）Druid介绍》我们对Druid做了简单的介绍，本文的话我们介绍下Druid的数据存储。在Druid中数据存储主要是列式存储，底层的存储示例图如下：上图简要的描述了Druid底...

Rae 大数据2024-02-02730 阅读0 评论

Apache Druid系列（一）Druid介绍

热文Apache Druid系列（一）Druid介绍

Apache Druid是一个分布式的，支持多维度实时在线OLAP分析的大数据处理系统。在部分的企业里面，关于大数据实时查询分析的场景里面都有用到这里的Apache Druid。所以这里我们写一个系列的文章，简单的介...

Rae 大数据2024-02-011119 阅读0 评论

数据湖系列（十六）Hive集成现有Hudi库表方案

热文数据湖系列（十六）Hive集成现有Hudi库表方案

上一篇文章《数据湖系列（十五）spark+hive+Hudi整合方案之插入数据》我们介绍了使用spark写入hudi的数据，同时在spark程序中集成hive的元数据信息，当spark把所有数据都写入到hudi的时候...

Rae 大数据2024-01-221255 阅读0 评论

Hue使用系列（二）Hue配置hive查询教程

热文Hue使用系列（二）Hue配置hive查询教程

上文《Hue使用系列（一）使用docker快速部署Hue》我们已经完成了Hue的快速部署，这里的话，我们配置下Hue的hive信息。1）部署hive这里我们需要部署hive，详情可参考《Hive安装配置篇（一）Hiv...

Rae 大数据2024-01-221742 阅读0 评论

Hue使用系列（一）使用docker快速部署Hue

热文Hue使用系列（一）使用docker快速部署Hue

最近由于在写相关的spark+hudi+hive相关的文章。关于大数据的部分涉及到的组件等信息非常多，由于在数据仓库的应用上，使用hive创建数据仓库的方案已经很成熟了，所以对于hive来说我们不能一直停留在使用命令...

Rae 大数据2024-01-221950 阅读0 评论

【分享】Flink/Doris生产环境方案选型的一些思考

热文【分享】Flink/Doris生产环境方案选型的一些思考

各位总监，技术负责人，架构师们大家好。今天的文章有点短，是一些个人思考，仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务...

Rae 大数据2024-01-101218 阅读0 评论

Flink应用开发系列（六十八）FlinkCDC整库同步doris(支持表结构动态变更)

热文Flink应用开发系列（六十八）FlinkCDC整库同步doris(支持表结构动态变更)

现如今大部分ToC的业务中都会有一些建数仓的需求，所以对于流批一体化建设数仓的需求非常多。目前建立流批一体化的数仓方案主要以Flinkcdc+doris为主（大多数企业目前几乎都在使用此方案）。所以这里我们也来介绍下...

Rae flink系列2023-12-082430 阅读0 评论