Rae 第49页

热文数据湖系列（十九）Iceberg+hive整合内部表使用案例

前面我们介绍过iceberg的信息，本文我们进入实战案例，就是结合Iceberg+hive整合方案，实现hive入湖和查湖。下面直接开始。一、首先部署hadoop和hive看过前几篇文章的同学可以知道，这里其实我们已...

Rae /数据仓库 /2024-01-23 /0 评论 /1464 阅读

前面我们介绍了hudi相关的数据湖信息，介绍的算是比较少的，主要是因为hudi我用的不多，并且hudi主要和spark的兼容性会比较强一点，个人感觉使用局限性比较大。所以hudi相关的信息介绍确实比较少一点，这里的话...

Rae /数据仓库 /2024-01-23 /0 评论 /620 阅读

前面我们演示了使用spark写入数据相关的方案，然后使用hive查询。现如今flink比较流行，所以我们再来演示一个Flink把数据写入Hudi的案例。重要说明1、目前感觉Flink对于hudi的支持还不太好。我这边...

Rae /数据仓库 /2024-01-22 /0 评论 /1116 阅读

上一篇文章《数据湖系列（十五）spark+hive+Hudi整合方案之插入数据》我们介绍了使用spark写入hudi的数据，同时在spark程序中集成hive的元数据信息，当spark把所有数据都写入到hudi的时候...

Rae /大数据 /2024-01-22 /0 评论 /975 阅读

上文《Hue使用系列（一）使用docker快速部署Hue》我们已经完成了Hue的快速部署，这里的话，我们配置下Hue的hive信息。1）部署hive这里我们需要部署hive，详情可参考《Hive安装配置篇（一）Hiv...

Rae /大数据 /2024-01-22 /0 评论 /1306 阅读

最近由于在写相关的spark+hudi+hive相关的文章。关于大数据的部分涉及到的组件等信息非常多，由于在数据仓库的应用上，使用hive创建数据仓库的方案已经很成熟了，所以对于hive来说我们不能一直停留在使用命令...

Rae /大数据 /2024-01-22 /0 评论 /1484 阅读

前面我们主要介绍是关于spark写入数据到Hudi的方案，每次在演示查询的时候，数据都是使用spark进行读取的，这样非常不方便。在数仓的情形中，hive是一个使用非常广泛的技术，所以在这里我们整合以下spark+h...

Rae /数据仓库 /2024-01-19 /0 评论 /1354 阅读

执行hive查询的时候报错了，提示： NoViableAltException(24@[]) at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveP...

Rae /大数据 /2024-01-19 /1 评论 /1133 阅读

增删改查一般都是属于一套模式，前面我们已经演示了使用spark向hudi种插入，查询，修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete，也就是...

Rae /数据仓库 /2024-01-18 /0 评论 /1312 阅读

在实际的工作中，大家会遇到一个问题，就是比如我现在有一个业务系统，在某一刻发了一个新的版本，但是在线上运行的时候由于提交的代码有某个bug，导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是：1、修改程序b...

Rae /数据仓库 /2024-01-18 /0 评论 /785 阅读

前面我们已经演示了向hudi插入和查询数据，这里的话我们来进行更新数据，在hudi里面，数据的存储模式和其他olap相关的数据库模式是一样的，主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文...

Rae /数据仓库 /2024-01-18 /0 评论 /778 阅读

现如今接触到数据库的同学大家都应该听说过分区的概念，包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念，我们在前面的文章《数据湖系列（九）使用spark程序向Apache Hudi插入数据》已...

Rae /数据仓库 /2024-01-17 /0 评论 /976 阅读

上文《数据湖系列（九）使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了，本文的话我们来演示下从hudi中读取相关的数据。所以示例如下：1）准备maven项目这里...

Rae /数据仓库 /2024-01-17 /0 评论 /854 阅读

前面《数据湖系列（八）Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本，如果我们的这些组件使用的是原始的hud...

Rae /数据仓库 /2024-01-17 /0 评论 /887 阅读

这里我们开始介绍Hudi相关的应用，本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包，因此只能通过源码编译的方式来进行，因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下：...

Rae /数据仓库 /2024-01-11 /0 评论 /1048 阅读