数据湖系列(二十四)Spark Structured Streaming近实时写入iceberg(JSON版本) 上文《数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本)》我们介绍了从kafka里面接收分隔符版本的示例数据,然后把数据写入到iceberg里面。但是由于分... Rae /数据仓库 /2024-01-31 /0 评论 /189 阅读
数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本) 前面我们演示了spark写入iceberg数据的问题,这里的话我们进入实战的阶段。在实际的过程中,我们经常会涉及到实时流的方式把数据写入到iceberg的需求,整体流程如下:这里我们使用spark的方式来演示下这里的... Rae /数据仓库 /2024-01-25 /0 评论 /222 阅读
数据湖系列(二十二)Spark操作iceberg数据(hive插入数据) 上文《数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据)》我们演示了使用spark直接向hdfs写入iceberg数据的案例,本文我们再来演示spark直接向hive写入iceberg数据的案例... Rae /数据仓库 /2024-01-25 /0 评论 /213 阅读
数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据) 上文《数据湖系列(二十)Iceberg+hive整合外部表使用案例》我们介绍了直接使用hive对于Iceberg的操作,本文的话我们来演示下使用Spark对Iceberg的操作。对于spark操作Iceberg来说,... Rae /数据仓库 /2024-01-25 /0 评论 /239 阅读
Hive执行的时候报错:Got runtime exception when hive syncing users 今天在编写spark程序的时候,需要写入hudi并且关联到hive中,结果报错了,提示:org.apache.hudi.exception.HoodieMetaSyncException: Could not s... 帅平 /大数据 /2024-01-19 /1 评论 /109 阅读
数据湖系列(十五)spark+hive+Hudi整合方案之插入数据 前面我们主要介绍是关于spark写入数据到Hudi的方案,每次在演示查询的时候,数据都是使用spark进行读取的,这样非常不方便。在数仓的情形中,hive是一个使用非常广泛的技术,所以在这里我们整合以下spark+h... Rae /数据仓库 /2024-01-19 /0 评论 /270 阅读
Spark访问ive的时候报错,提示:Hive Schema version 1.2.0 does not match metastore's schema version 2.3.0 运行spark写hive数据的时候报错了,提示:Caused by: MetaException(message:Hive Schema version 1.2.0 does not match metastor... 帅平 /大数据 /2024-01-19 /1 评论 /99 阅读
Spark操作hudi如何修改为Merge On Read模式? Spark操作hudi如何修改为Merge On Read模式?... 帅平 /大数据 /2024-01-18 /1 评论 /114 阅读
数据湖系列(十四)spark删除Apache Hudi数据 增删改查一般都是属于一套模式,前面我们已经演示了使用spark向hudi种插入,查询,修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete,也就是... Rae /数据仓库 /2024-01-18 /0 评论 /258 阅读