数据仓库

这里整理数据仓库、数据湖、湖仓架构、数据治理和表设计相关文章，也会记录 Hudi、Iceberg、Paimon、Doris 等方案的实践经验。

DataHub开源数据治理实战（六）DataHub数据分析

热文DataHub开源数据治理实战（六）DataHub数据分析

前面我们介绍了DataHub上的元数据摄入，这里的话我们来看看Datahub上的Analytics图表。示例图如下：这里的Analytics图表主要是统计用户行为的。这里的用户是指datahub上的用户，也就是比如一...

Rae 数据仓库系列2024-02-181351 阅读0 评论

DataHub开源数据治理实战（五）DataHub元数据摄入之yaml操作

热文DataHub开源数据治理实战（五）DataHub元数据摄入之yaml操作

上文《DataHub开源数据治理实战（四）DataHub元数据摄入之可视化操作》我们介绍了直接在datahub的dashboard可视化操作元数据的摄入，这里我们再介绍一种元数据摄入的方式，即使用yaml的方式进行元...

Rae 数据仓库系列2024-02-181347 阅读0 评论

DataHub开源数据治理实战（四）DataHub元数据摄入之可视化操作

热文DataHub开源数据治理实战（四）DataHub元数据摄入之可视化操作

这里我们开始介绍DataHub的主要功能之元数据摄入，这里的元数据摄入有两种方式，分别是：1、通过dashboard可视化的设置元数据摄入基础信息。 2、通过yaml文件的形式创建元数据摄入基础信息。本文我们主要演示...

Rae 数据仓库系列2024-02-181278 阅读0 评论

DataHub开源数据治理实战（三）DataHub dashboard介绍

热文DataHub开源数据治理实战（三）DataHub dashboard介绍

上文《DataHub开源数据治理实战（二）DataHub安装部署》我们使用quickstart的方式快速的部署了一个Datahub。最后我们可以看到可视化的dashboard。本文我们对dashboard进行一下简单...

Rae 数据仓库系列2024-02-181398 阅读0 评论

DataHub开源数据治理实战（二）DataHub安装部署

热文DataHub开源数据治理实战（二）DataHub安装部署

本文我们介绍下DataHub的安装部署。对于DataHub来说，安装部署非常简单，直接使用docker即可，所以这里我们部署DataHub之前需要准备必要的环境：1、python3 2、docker 3、docker...

Rae 数据仓库系列2024-02-182073 阅读0 评论

DataHub开源数据治理实战（一）DataHub介绍

热文DataHub开源数据治理实战（一）DataHub介绍

在之前我们介绍了atlas的血缘关系，详见《Apache Atlas血缘关系实战》。由于服务器配置比较低，无法演示，所以Atlas相关的系列没有写完，在实际的业务中，其实我们也没有使用atlas，主要的原因是：1、比...

Rae 数据仓库系列2024-02-181522 阅读0 评论

数据湖系列（二十六）Flink sql近实时写入iceberg

热文数据湖系列（二十六）Flink sql近实时写入iceberg

前面我们介绍了使用spark近实时写把kafka的数据写入iceberg，本文的话，我们使用flink sql的形式来把kafka的数据近实时写入到iceberg里面去。在flink中，这种写入其实主要是依赖于kaf...

Rae 数据仓库2024-01-311574 阅读0 评论

数据湖系列（二十五）Flink sql操作iceberg数据

热文数据湖系列（二十五）Flink sql操作iceberg数据

前面我们演示了使用spark操作iceberg的数据，接着我们就来演示下flink操作iceberg数据。flink操作iceberg数据的形式主要有两种，分别是：1、datastream 2、flink sql现如...

Rae 数据仓库2024-01-311259 阅读0 评论

数据湖系列（二十四）Spark Structured Streaming近实时写入iceberg（JSON版本）

热文数据湖系列（二十四）Spark Structured Streaming近实时写入iceberg（JSON版本）

上文《数据湖系列（二十三）Spark Structured Streaming近实时写入iceberg（分隔符版本）》我们介绍了从kafka里面接收分隔符版本的示例数据，然后把数据写入到iceberg里面。但是由于分...

Rae 数据仓库2024-01-311141 阅读0 评论

数据湖系列（二十三）Spark Structured Streaming近实时写入iceberg（分隔符版本）

热文数据湖系列（二十三）Spark Structured Streaming近实时写入iceberg（分隔符版本）

前面我们演示了spark写入iceberg数据的问题，这里的话我们进入实战的阶段。在实际的过程中，我们经常会涉及到实时流的方式把数据写入到iceberg的需求，整体流程如下：这里我们使用spark的方式来演示下这里的...

Rae 数据仓库2024-01-251259 阅读0 评论

数据湖系列（二十二）Spark操作iceberg数据（hive插入数据）

热文数据湖系列（二十二）Spark操作iceberg数据（hive插入数据）

上文《数据湖系列（二十一）Spark操作iceberg数据（hdfs插入数据）》我们演示了使用spark直接向hdfs写入iceberg数据的案例，本文我们再来演示spark直接向hive写入iceberg数据的案例...

Rae 数据仓库2024-01-251361 阅读0 评论

数据湖系列（二十一）Spark操作iceberg数据（hdfs插入数据）

热文数据湖系列（二十一）Spark操作iceberg数据（hdfs插入数据）

上文《数据湖系列（二十）Iceberg+hive整合外部表使用案例》我们介绍了直接使用hive对于Iceberg的操作，本文的话我们来演示下使用Spark对Iceberg的操作。对于spark操作Iceberg来说，...

Rae 数据仓库2024-01-251326 阅读0 评论

数据湖系列（二十）Iceberg+hive整合外部表使用案例

热文数据湖系列（二十）Iceberg+hive整合外部表使用案例

上文《数据湖系列（十九）Iceberg+hive整合内部表使用案例》我们使用iceberg+hive的方式整合了内部表，实现了创建表，插入数据，查询数据的功能。熟悉hive的同学也能知道我们经常在使用hive的时候，...

Rae 数据仓库2024-01-231276 阅读0 评论

数据湖系列（十九）Iceberg+hive整合内部表使用案例

热文数据湖系列（十九）Iceberg+hive整合内部表使用案例

前面我们介绍过iceberg的信息，本文我们进入实战案例，就是结合Iceberg+hive整合方案，实现hive入湖和查湖。下面直接开始。一、首先部署hadoop和hive看过前几篇文章的同学可以知道，这里其实我们已...

Rae 数据仓库2024-01-231886 阅读0 评论

数据湖系列（十八）Iceberg介绍

数据湖系列（十八）Iceberg介绍

前面我们介绍了hudi相关的数据湖信息，介绍的算是比较少的，主要是因为hudi我用的不多，并且hudi主要和spark的兼容性会比较强一点，个人感觉使用局限性比较大。所以hudi相关的信息介绍确实比较少一点，这里的话...

Rae 数据仓库2024-01-23823 阅读0 评论