数据湖系列(十二)spark更新Apache Hudi数据 前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文... Rae /数据仓库 /2024-01-18 /0 评论 /214 阅读
数据湖系列(十一)spark从Apache Hudi分区插入数据 现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已... Rae /数据仓库 /2024-01-17 /0 评论 /218 阅读
数据湖系列(十)spark从Apache Hudi读取数据 上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里... Rae /数据仓库 /2024-01-17 /0 评论 /243 阅读
数据湖系列(九)spark向Apache Hudi插入数据 前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud... Rae /数据仓库 /2024-01-17 /0 评论 /216 阅读
数据湖系列(八)Apache Hudi源码编译 这里我们开始介绍Hudi相关的应用,本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包,因此只能通过源码编译的方式来进行,因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下:... Rae /数据仓库 /2024-01-11 /0 评论 /355 阅读
Doris系列(四十九)Doris使用规范 目前随着doris的使用范围越来越广,那么对于初次接触到doris的用户来说,我们建议提前熟悉下相关的规范,这样可以避免后续出现各种问题。本文的话,我们从三个方面来介绍下doris的使用规范:1、字符集规范2、建... Rae /doris系列 /2023-12-20 /0 评论 /327 阅读
Doris在生产环境中的一些最佳实践 大家好,一些经验和教训,总结一下,大家直接领走。 前缀索引 不同于传统的数据库设计,Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数... Rae /doris系列 /2023-12-07 /0 评论 /338 阅读
Apache Atlas血缘关系实战(四)atlas核心概念介绍 在前面我们已经安装部署好了atlas,并且也导入了演示数据,同时我们可以通过演示数据查看表与表之间,列与列之间的血缘关系。随后我们会演示如何自定义的创建一套自定义的血缘关系,在介绍之前,我们首先介绍一些atlas的核... Rae /数据仓库系列 /2023-11-15 /0 评论 /365 阅读
Apache Atlas血缘关系实战(一)血缘关系介绍 在本站我们介绍过一些数仓相关的知识点,但是对于在中型企业或者中大型企业甚至大企业的人来说,整个的数据仓库体系是非常大的,这里的数据来源,数据使用等等信息越往后做约复杂,所以如果涉及到那块的数据如果出现错误或者偏差的时... Rae /数据仓库系列 /2023-11-14 /0 评论 /349 阅读
Doris系列(四十八)Doris部署be节点配置参考 在日常中,我们经常会涉及到手动的部署doris,目前主要的流行方式是:1、使用operator在kubernetes中部署2、使用doris-manager部署3、使用传统方式进行部署目前使用较多的还是以传统... Rae /doris系列 /2023-10-16 /0 评论 /458 阅读