热文数据湖系列(十七)Flink写入数据到Hudi 前面我们演示了使用spark写入数据相关的方案,然后使用hive查询。现如今flink比较流行,所以我们再来演示一个Flink把数据写入Hudi的案例。重要说明1、目前感觉Flink对于hudi的支持还不太好。我这边... Rae数据仓库2024-01-221308 阅读0 评论
热文数据湖系列(十五)spark+hive+Hudi整合方案之插入数据 前面我们主要介绍是关于spark写入数据到Hudi的方案,每次在演示查询的时候,数据都是使用spark进行读取的,这样非常不方便。在数仓的情形中,hive是一个使用非常广泛的技术,所以在这里我们整合以下spark+h... Rae数据仓库2024-01-191533 阅读0 评论
热文数据湖系列(十四)spark删除Apache Hudi数据 增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是... Rae数据仓库2024-01-181479 阅读0 评论
热文数据湖系列(十三)spark增量查询Apache Hudi数据 在实际的工作中,大家会遇到一个问题,就是比如我现在有一个业务系统,在某一刻发了一个新的版本,但是在线上运行的时候由于提交的代码有某个bug,导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是:1、修改程序b... Rae数据仓库2024-01-181055 阅读0 评论
数据湖系列(十二)spark更新Apache Hudi数据 前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文... Rae数据仓库2024-01-18939 阅读0 评论
热文数据湖系列(十一)spark从Apache Hudi分区插入数据 现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已... Rae数据仓库2024-01-171114 阅读0 评论
数据湖系列(十)spark从Apache Hudi读取数据 上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里... Rae数据仓库2024-01-17999 阅读0 评论
热文数据湖系列(九)spark向Apache Hudi插入数据 前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud... Rae数据仓库2024-01-171043 阅读0 评论
热文数据湖系列(八)Apache Hudi源码编译 这里我们开始介绍Hudi相关的应用,本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包,因此只能通过源码编译的方式来进行,因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下:... Rae数据仓库2024-01-111202 阅读0 评论
热文Doris基础学习系列(四十九)Doris使用规范 目前随着doris的使用范围越来越广,那么对于初次接触到doris的用户来说,我们建议提前熟悉下相关的规范,这样可以避免后续出现各种问题。本文的话,我们从三个方面来介绍下doris的使用规范:1、字符集规范 2、建表... Raedoris系列2023-12-201590 阅读0 评论
热文Doris在生产环境中的一些最佳实践 大家好,一些经验和教训,总结一下,大家直接领走。 前缀索引 不同于传统的数据库设计,Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的。 ... Raedoris系列2023-12-071156 阅读0 评论
热文Apache Atlas血缘关系实战(四)atlas核心概念介绍 在前面我们已经安装部署好了atlas,并且也导入了演示数据,同时我们可以通过演示数据查看表与表之间,列与列之间的血缘关系。随后我们会演示如何自定义的创建一套自定义的血缘关系,在介绍之前,我们首先介绍一些atlas的核... Rae数据仓库系列2023-11-151737 阅读0 评论
热文Apache Atlas血缘关系实战(一)血缘关系介绍 在本站我们介绍过一些数仓相关的知识点,但是对于在中型企业或者中大型企业甚至大企业的人来说,整个的数据仓库体系是非常大的,这里的数据来源,数据使用等等信息越往后做约复杂,所以如果涉及到那块的数据如果出现错误或者偏差的时... Rae数据仓库系列2023-11-141253 阅读0 评论
热文Doris基础学习系列(四十八)Doris部署be节点配置参考 在日常中,我们经常会涉及到手动的部署doris,目前主要的流行方式是:1、使用operator在kubernetes中部署 2、使用doris-manager部署 3、使用传统方式进行部署目前使用较多的还是以传统方式... Raedoris系列2023-10-161824 阅读0 评论
热文Doris基础学习系列(四十七)Doris部署fe节点配置参考 在日常中,我们经常会涉及到手动的部署doris,目前主要的流行方式是:1、使用operator在kubernetes中部署 2、使用doris-manager部署 3、使用传统方式进行部署目前使用较多的还是以传统方式... Raedoris系列2023-10-161687 阅读0 评论