数据湖系列(十四)spark删除Apache Hudi数据 增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是... Rae /数据仓库 /2024-01-18 /0 评论 /223 阅读
数据湖系列(十三)spark增量查询Apache Hudi数据 在实际的工作中,大家会遇到一个问题,就是比如我现在有一个业务系统,在某一刻发了一个新的版本,但是在线上运行的时候由于提交的代码有某个bug,导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是:1、修改程序b... Rae /数据仓库 /2024-01-18 /0 评论 /197 阅读
数据湖系列(十二)spark更新Apache Hudi数据 前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文... Rae /数据仓库 /2024-01-18 /0 评论 /173 阅读
数据湖系列(十一)spark从Apache Hudi分区插入数据 现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已... Rae /数据仓库 /2024-01-17 /0 评论 /181 阅读
数据湖系列(十)spark从Apache Hudi读取数据 上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里... Rae /数据仓库 /2024-01-17 /0 评论 /201 阅读
数据湖系列(九)spark向Apache Hudi插入数据 前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud... Rae /数据仓库 /2024-01-17 /0 评论 /183 阅读
数据湖系列(八)Apache Hudi源码编译 这里我们开始介绍Hudi相关的应用,本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包,因此只能通过源码编译的方式来进行,因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下:... Rae /数据仓库 /2024-01-11 /0 评论 /297 阅读
Doris系列(四十九)Doris使用规范 目前随着doris的使用范围越来越广,那么对于初次接触到doris的用户来说,我们建议提前熟悉下相关的规范,这样可以避免后续出现各种问题。本文的话,我们从三个方面来介绍下doris的使用规范:1、字符集规范2、建... Rae /doris系列 /2023-12-20 /0 评论 /287 阅读
Doris在生产环境中的一些最佳实践 大家好,一些经验和教训,总结一下,大家直接领走。 前缀索引 不同于传统的数据库设计,Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数... Rae /doris系列 /2023-12-07 /0 评论 /312 阅读
Apache Atlas血缘关系实战(四)atlas核心概念介绍 在前面我们已经安装部署好了atlas,并且也导入了演示数据,同时我们可以通过演示数据查看表与表之间,列与列之间的血缘关系。随后我们会演示如何自定义的创建一套自定义的血缘关系,在介绍之前,我们首先介绍一些atlas的核... Rae /数据仓库系列 /2023-11-15 /0 评论 /332 阅读