Spark

这里整理Spark相关的文章与实践记录，内容以问题排查、使用经验和项目笔记为主。

Spark操作hudi如何修改为Merge On Read模式？ Spark Hudi

问题分类：大数据最新回答：3年前 (2024-01-18)

821 1

spark默认操作hudi是什么模式？ Spark Hudi

问题分类：大数据最新回答：3年前 (2024-01-18)

842 1

数据湖系列（十四）spark删除Apache Hudi数据

热文数据湖系列（十四）spark删除Apache Hudi数据

增删改查一般都是属于一套模式，前面我们已经演示了使用spark向hudi种插入，查询，修改数据的案例。本文的话我们来演示使用spark删除hudi的数据。一、普通删除数据这里的删除数据主要是常用的delete，也就是...

Rae 数据仓库2024-01-181626 阅读0 评论

数据湖系列（十三）spark增量查询Apache Hudi数据

热文数据湖系列（十三）spark增量查询Apache Hudi数据

在实际的工作中，大家会遇到一个问题，就是比如我现在有一个业务系统，在某一刻发了一个新的版本，但是在线上运行的时候由于提交的代码有某个bug，导致数据库的数据从发版之后就出现了问题。此时我们就需要做的是：1、修改程序b...

Rae 数据仓库2024-01-181234 阅读0 评论

数据湖系列（十二）spark更新Apache Hudi数据

热文数据湖系列（十二）spark更新Apache Hudi数据

前面我们已经演示了向hudi插入和查询数据，这里的话我们来进行更新数据，在hudi里面，数据的存储模式和其他olap相关的数据库模式是一样的，主要是使用append的方式。所以我们在更新的时候数据也是追加的方式。本文...

Rae 数据仓库2024-01-181072 阅读0 评论

数据湖系列（十一）spark从Apache Hudi分区插入数据

热文数据湖系列（十一）spark从Apache Hudi分区插入数据

现如今接触到数据库的同学大家都应该听说过分区的概念，包括mysql也有分区的概念。所以在Hudi这个数据湖里面他也有分区的概念，我们在前面的文章《数据湖系列（九）使用spark程序向Apache Hudi插入数据》已...

Rae 数据仓库2024-01-171228 阅读0 评论

数据湖系列（十）spark从Apache Hudi读取数据

热文数据湖系列（十）spark从Apache Hudi读取数据

上文《数据湖系列（九）使用spark程序向Apache Hudi插入数据》我们已经实现了使用spark程序向hudi写入数据了，本文的话我们来演示下从hudi中读取相关的数据。所以示例如下：1）准备maven项目这里...

Rae 数据仓库2024-01-171120 阅读0 评论

数据湖系列（九）spark向Apache Hudi插入数据

热文数据湖系列（九）spark向Apache Hudi插入数据

前面《数据湖系列（八）Apache Hudi源码编译》我们已经编译了相关的hudi版本。这里的编译主要是为了匹配相关的hadoop、hive、flink、spark等组件的版本，如果我们的这些组件使用的是原始的hud...

Rae 数据仓库2024-01-171172 阅读0 评论

运行spark程序的时候报错了，提示：java.lang.ClassNotFoundException: scala.math.Ordering$Reverse Spark

问题分类：大数据最新回答：3年前 (2024-01-17)

1K+ 1

TiDB基础教程系列（五）使用spark sql查询TiDB

热文TiDB基础教程系列（五）使用spark sql查询TiDB

上文《TiDB基础教程系列（四）认识TiDB伪集群的spark》我们已经可以访问到spark环境了，本文的话我们演示下使用spark sql查询TiDB的案例。下面直接开始：前置工作首先我们做前置工作，使用navic...

Rae mysql学习2024-01-091291 阅读0 评论

TiDB基础教程系列（四）认识TiDB伪集群的spark

热文TiDB基础教程系列（四）认识TiDB伪集群的spark

在之前的安装文档《TiDB基础教程系列（二）使用docker方式快速部署TiDB伪集群》里面我们看到启动了2个spark的容器，分别为一主一从，如下图：所以这里我们相当于有一个现成的spark环境可以使用，在观望的T...

Rae mysql学习2024-01-091372 阅读0 评论

Spark提交任务的命令示例有吗？ Spark

问题分类：大数据最新回答：3年前 (2023-11-20)

681 2

Spark任务shuffle太慢，有没有哪些可调优的方案？ Spark

问题分类：大数据最新回答：3年前 (2023-11-20)

972 7

有没有spark提交任务的时候常用的调优参数示例？ Spark

问题分类：大数据最新回答：3年前 (2023-11-20)

745 1

Spark在调优的过程中经常会涉及到哪些参数的调优？ Spark

问题分类：大数据最新回答：3年前 (2023-11-20)

792 7