热文数据湖系列(十七)Flink写入数据到Hudi
前面我们演示了使用spark写入数据相关的方案,然后使用hive查询。现如今flink比较流行,所以我们再来演示一个Flink把数据写入Hudi的案例。重要说明1、目前感觉Flink对于hudi的支持还不太好。我这边...
前面我们演示了使用spark写入数据相关的方案,然后使用hive查询。现如今flink比较流行,所以我们再来演示一个Flink把数据写入Hudi的案例。重要说明1、目前感觉Flink对于hudi的支持还不太好。我这边...
上一篇文章《数据湖系列(十五)spark+hive+Hudi整合方案之插入数据》我们介绍了使用spark写入hudi的数据,同时在spark程序中集成hive的元数据信息,当spark把所有数据都写入到hudi的时候...
上文《Hue使用系列(一)使用docker快速部署Hue》我们已经完成了Hue的快速部署,这里的话,我们配置下Hue的hive信息。1)部署hive这里我们需要部署hive,详情可参考《Hive安装配置篇(一)Hiv...
最近由于在写相关的spark+hudi+hive相关的文章。关于大数据的部分涉及到的组件等信息非常多,由于在数据仓库的应用上,使用hive创建数据仓库的方案已经很成熟了,所以对于hive来说我们不能一直停留在使用命令...
前面我们主要介绍是关于spark写入数据到Hudi的方案,每次在演示查询的时候,数据都是使用spark进行读取的,这样非常不方便。在数仓的情形中,hive是一个使用非常广泛的技术,所以在这里我们整合以下spark+h...
执行hive查询的时候报错了,提示: NoViableAltException(24@[]) at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveP...
增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是...
在实际的工作中,大家会遇到一个问题,就是比如我现在有一个业务系统,在某一刻发了一个新的版本,但是在线上运行的时候由于提交的代码有某个bug,导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是:1、修改程序b...
前面我们已经演示了向hudi插入和查询数据,这里的话我们来进行更新数据,在hudi里面,数据的存储模式和其他olap相关的数据库模式是一样的,主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文...
现如今接触到数据库的同学大家都应该听说过分区的概念,包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念,我们在前面的文章《数据湖系列(九)使用spark程序向Apache Hudi插入数据》已...
上文《数据湖系列(九)使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了,本文的话我们来演示下从hudi中读取相关的数据。所以示例如下:1)准备maven项目这里...
前面《数据湖系列(八)Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本,如果我们的这些组件使用的是原始的hud...
这里我们开始介绍Hudi相关的应用,本文我们主要介绍下Hudi的安装部署。目前Hudi的官网没有现成的安装包,因此只能通过源码编译的方式来进行,因此我们主要还是下载源码然后找相关的对应的组件即可。下面我们来演示一下:...
各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务...
上文《TiDB基础教程系列(四)认识TiDB伪集群的spark》我们已经可以访问到spark环境了,本文的话我们演示下使用spark sql查询TiDB的案例。下面直接开始:前置工作首先我们做前置工作,使用navic...