热文DataHub开源数据治理实战(六)DataHub数据分析 前面我们介绍了DataHub上的元数据摄入,这里的话我们来看看Datahub上的Analytics图表。示例图如下:这里的Analytics图表主要是统计用户行为的。这里的用户是指datahub上的用户,也就是比如一... Rae数据仓库系列2024-02-181180 阅读0 评论
热文DataHub开源数据治理实战(五)DataHub元数据摄入之yaml操作 上文《DataHub开源数据治理实战(四)DataHub元数据摄入之可视化操作》我们介绍了直接在datahub的dashboard可视化操作元数据的摄入,这里我们再介绍一种元数据摄入的方式,即使用yaml的方式进行元... Rae数据仓库系列2024-02-181182 阅读0 评论
热文DataHub开源数据治理实战(四)DataHub元数据摄入之可视化操作 这里我们开始介绍DataHub的主要功能之元数据摄入,这里的元数据摄入有两种方式,分别是:1、通过dashboard可视化的设置元数据摄入基础信息。 2、通过yaml文件的形式创建元数据摄入基础信息。本文我们主要演示... Rae数据仓库系列2024-02-181092 阅读0 评论
热文DataHub开源数据治理实战(三)DataHub dashboard介绍 上文《DataHub开源数据治理实战(二)DataHub安装部署》我们使用quickstart的方式快速的部署了一个Datahub。最后我们可以看到可视化的dashboard。本文我们对dashboard进行一下简单... Rae数据仓库系列2024-02-181211 阅读0 评论
热文DataHub开源数据治理实战(二)DataHub安装部署 本文我们介绍下DataHub的安装部署。对于DataHub来说,安装部署非常简单,直接使用docker即可,所以这里我们部署DataHub之前需要准备必要的环境:1、python3 2、docker 3、docker... Rae数据仓库系列2024-02-181803 阅读0 评论
热文DataHub开源数据治理实战(一)DataHub介绍 在之前我们介绍了atlas的血缘关系,详见《Apache Atlas血缘关系实战》。由于服务器配置比较低,无法演示,所以Atlas相关的系列没有写完,在实际的业务中,其实我们也没有使用atlas,主要的原因是:1、比... Rae数据仓库系列2024-02-181338 阅读0 评论
热文数据湖系列(二十六)Flink sql近实时写入iceberg 前面我们介绍了使用spark近实时写把kafka的数据写入iceberg,本文的话,我们使用flink sql的形式来把kafka的数据近实时写入到iceberg里面去。在flink中,这种写入其实主要是依赖于kaf... Rae数据仓库2024-01-311458 阅读0 评论
热文数据湖系列(二十五)Flink sql操作iceberg数据 前面我们演示了使用spark操作iceberg的数据,接着我们就来演示下flink操作iceberg数据。flink操作iceberg数据的形式主要有两种,分别是:1、datastream 2、flink sql现如... Rae数据仓库2024-01-311156 阅读0 评论
热文数据湖系列(二十四)Spark Structured Streaming近实时写入iceberg(JSON版本) 上文《数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本)》我们介绍了从kafka里面接收分隔符版本的示例数据,然后把数据写入到iceberg里面。但是由于分... Rae数据仓库2024-01-311046 阅读0 评论
热文 数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本) 前面我们演示了spark写入iceberg数据的问题,这里的话我们进入实战的阶段。在实际的过程中,我们经常会涉及到实时流的方式把数据写入到iceberg的需求,整体流程如下:这里我们使用spark的方式来演示下这里的... Rae数据仓库2024-01-251167 阅读0 评论
热文数据湖系列(二十二)Spark操作iceberg数据(hive插入数据) 上文《数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据)》我们演示了使用spark直接向hdfs写入iceberg数据的案例,本文我们再来演示spark直接向hive写入iceberg数据的案例... Rae数据仓库2024-01-251247 阅读0 评论
热文数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据) 上文《数据湖系列(二十)Iceberg+hive整合外部表使用案例》我们介绍了直接使用hive对于Iceberg的操作,本文的话我们来演示下使用Spark对Iceberg的操作。对于spark操作Iceberg来说,... Rae数据仓库2024-01-251230 阅读0 评论
热文数据湖系列(二十)Iceberg+hive整合外部表使用案例 上文《数据湖系列(十九)Iceberg+hive整合内部表使用案例》我们使用iceberg+hive的方式整合了内部表,实现了创建表,插入数据,查询数据的功能。熟悉hive的同学也能知道我们经常在使用hive的时候,... Rae数据仓库2024-01-231144 阅读0 评论
热文数据湖系列(十九)Iceberg+hive整合内部表使用案例 前面我们介绍过iceberg的信息,本文我们进入实战案例,就是结合Iceberg+hive整合方案,实现hive入湖和查湖。下面直接开始。一、首先部署hadoop和hive看过前几篇文章的同学可以知道,这里其实我们已... Rae数据仓库2024-01-231740 阅读0 评论
数据湖系列(十八)Iceberg介绍 前面我们介绍了hudi相关的数据湖信息,介绍的算是比较少的,主要是因为hudi我用的不多,并且hudi主要和spark的兼容性会比较强一点,个人感觉使用局限性比较大。所以hudi相关的信息介绍确实比较少一点,这里的话... Rae数据仓库2024-01-23743 阅读0 评论