热文数据湖系列(十四)spark删除Apache Hudi数据 增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是... Rae数据仓库2024-01-181495 阅读0 评论
热文数据湖系列(十三)spark增量查询Apache Hudi数据 在实际的工作中,大家会遇到一个问题,就是比如我现在有一个业务系统,在某一刻发了一个新的版本,但是在线上运行的时候由于提交的代码有某个bug,导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是:1、修改程序b... Rae数据仓库2024-01-181080 阅读0 评论
数据湖系列(十二)spark更新Apache Hudi数据 前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文... Rae数据仓库2024-01-18959 阅读0 评论
热文数据湖系列(十一)spark从Apache Hudi分区插入数据 现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已... Rae数据仓库2024-01-171126 阅读0 评论
热文数据湖系列(十)spark从Apache Hudi读取数据 上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里... Rae数据仓库2024-01-171020 阅读0 评论
热文数据湖系列(九)spark向Apache Hudi插入数据 前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud... Rae数据仓库2024-01-171063 阅读0 评论
热文TiDB基础教程系列(五)使用spark sql查询TiDB 上文《TiDB基础教程系列(四)认识TiDB伪集群的spark》我们已经可以访问到spark环境了,本文的话我们演示下使用spark sql查询TiDB的案例。下面直接开始:前置工作首先我们做前置工作,使用navic... Raemysql学习2024-01-091158 阅读0 评论
热文TiDB基础教程系列(四)认识TiDB伪集群的spark 在之前的安装文档《TiDB基础教程系列(二)使用docker方式快速部署TiDB伪集群》里面我们看到启动了2个spark的容器,分别为一主一从,如下图:所以这里我们相当于有一个现成的spark环境可以使用,在观望的T... Raemysql学习2024-01-091199 阅读0 评论