数据湖系列(十二)spark更新Apache Hudi数据 前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文... Rae /数据仓库 /2024-01-18 /0 评论 /199 阅读
数据湖系列(十一)spark从Apache Hudi分区插入数据 现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已... Rae /数据仓库 /2024-01-17 /0 评论 /206 阅读
数据湖系列(十)spark从Apache Hudi读取数据 上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里... Rae /数据仓库 /2024-01-17 /0 评论 /237 阅读
数据湖系列(九)spark向Apache Hudi插入数据 前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud... Rae /数据仓库 /2024-01-17 /0 评论 /201 阅读
数据湖系列(八)Apache Hudi源码编译 这里我们开始介绍Hudi相关的应用,本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包,因此只能通过源码编译的方式来进行,因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下:... Rae /数据仓库 /2024-01-11 /0 评论 /339 阅读
【分享】Flink/Doris生产环境方案选型的一些思考 各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务... Rae /大数据 /2024-01-10 /0 评论 /372 阅读
TiDB基础教程系列(五)使用spark sql查询TiDB 上文《TiDB基础教程系列(四)认识TiDB伪集群的spark》我们已经可以访问到spark环境了,本文的话我们演示下使用spark sql查询TiDB的案例。下面直接开始:前置工作首先我们做前置工作,使用navic... Rae /mysql学习 /2024-01-09 /0 评论 /263 阅读
TiDB基础教程系列(四)认识TiDB伪集群的spark 在之前的安装文档《TiDB基础教程系列(二)使用docker方式快速部署TiDB伪集群》里面我们看到启动了2个spark的容器,分别为一主一从,如下图:所以这里我们相当于有一个现成的spark环境可以使用,在观望的T... Rae /mysql学习 /2024-01-09 /0 评论 /215 阅读
TiDB基础教程系列(三)认识TiDB伪集群的grafana 目前对于系统的监控方案比较流行的就说prometheus+grafana。我们在上文《TiDB基础教程系列(二)使用docker方式快速部署TiDB伪集群》安装伪集群的docker-compose文件中其实已经编排了... Rae /mysql学习 /2024-01-09 /0 评论 /202 阅读
TiDB基础教程系列(二)使用docker方式快速部署TiDB伪集群 上文《TiDB基础教程系列(一)TiDB介绍》我们简单的介绍了TiDB的相关知识。本文我们使用docker的方式来快速部署一个Tidb的伪集群。下面直接开始演示。一、准备服务器这里我们由于部署的是伪集群,那么需要准备... Rae /mysql学习 /2024-01-09 /0 评论 /181 阅读