数据湖系列(二十)Iceberg+hive整合外部表使用案例 上文《数据湖系列(十九)Iceberg+hive整合内部表使用案例》我们使用iceberg+hive的方式整合了内部表,实现了创建表,插入数据,查询数据的功能。熟悉hive的同学也能知道我们经常在使用hive的时候,... Rae /数据仓库 /2024-01-23 /0 评论 /190 阅读
数据湖系列(十九)Iceberg+hive整合内部表使用案例 前面我们介绍过iceberg的信息,本文我们进入实战案例,就是结合Iceberg+hive整合方案,实现hive入湖和查湖。下面直接开始。一、首先部署hadoop和hive看过前几篇文章的同学可以知道,这里其实我们已... Rae /数据仓库 /2024-01-23 /0 评论 /290 阅读
数据湖系列(十八)Iceberg介绍 前面我们介绍了hudi相关的数据湖信息,介绍的算是比较少的,主要是因为hudi我用的不多,并且hudi主要和spark的兼容性会比较强一点,个人感觉使用局限性比较大。所以hudi相关的信息介绍确实比较少一点,这里的话... Rae /数据仓库 /2024-01-23 /0 评论 /165 阅读
数据湖系列(十七)Flink写入数据到Hudi 前面我们演示了使用spark写入数据相关的方案,然后使用hive查询。现如今flink比较流行,所以我们再来演示一个Flink把数据写入Hudi的案例。重要说明1、目前感觉Flink对于hudi的支持还不太好。我这边... Rae /数据仓库 /2024-01-22 /0 评论 /277 阅读
数据湖系列(十六)Hive集成现有Hudi库表方案 上一篇文章《数据湖系列(十五)spark+hive+Hudi整合方案之插入数据》我们介绍了使用spark写入hudi的数据,同时在spark程序中集成hive的元数据信息,当spark把所有数据都写入到hudi的时候... Rae /大数据 /2024-01-22 /0 评论 /241 阅读
Hue使用系列(二)Hue配置hive查询教程 上文《Hue使用系列(一)使用docker快速部署Hue》我们已经完成了Hue的快速部署,这里的话,我们配置下Hue的hive信息。1)部署hive这里我们需要部署hive,详情可参考《Hive安装配置篇(一)Hiv... Rae /大数据 /2024-01-22 /0 评论 /225 阅读
Hue使用系列(一)使用docker快速部署Hue 最近由于在写相关的spark+hudi+hive相关的文章。关于大数据的部分涉及到的组件等信息非常多,由于在数据仓库的应用上,使用hive创建数据仓库的方案已经很成熟了,所以对于hive来说我们不能一直停留在使用命令... Rae /大数据 /2024-01-22 /0 评论 /227 阅读
数据湖系列(十五)spark+hive+Hudi整合方案之插入数据 前面我们主要介绍是关于spark写入数据到Hudi的方案,每次在演示查询的时候,数据都是使用spark进行读取的,这样非常不方便。在数仓的情形中,hive是一个使用非常广泛的技术,所以在这里我们整合以下spark+h... Rae /数据仓库 /2024-01-19 /0 评论 /270 阅读
数据湖系列(十四)spark删除Apache Hudi数据 增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是... Rae /数据仓库 /2024-01-18 /0 评论 /259 阅读
数据湖系列(十三)spark增量查询Apache Hudi数据 在实际的工作中,大家会遇到一个问题,就是比如我现在有一个业务系统,在某一刻发了一个新的版本,但是在线上运行的时候由于提交的代码有某个bug,导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是:1、修改程序b... Rae /数据仓库 /2024-01-18 /0 评论 /231 阅读