数据湖系列(六)Delta Lake数据湖的时间旅行 在前面我们介绍过操作Delta Lake数据湖的时候,就像nosql一样,所有的操作都是追加操作而不是直接修改。因此基于上诉的原理,那么在Delta Lake内部肯定是维护了每一次修改的版本号,我们查询的时候默认是查... Rae /数据仓库 /2022-12-19 /0 评论 /419 阅读
线上环境的Delta Lake数据湖小文件太多了怎么办? 线上环境的Delta Lake数据湖使用了快1年了,经过了各种增量更新,有很多小文件,影响了查询效率,请问可以压缩吗? 怎么弄?... 帅平 /大数据 /2022-12-19 /1 评论 /221 阅读
Delta Lake如何移出不想要的旧版本数据? 在Delta Lake中所有的数据都被物化成了数据文件,因此有很多旧版本的数据,有时候我们想要删除一些旧版本的数据怎么办?... 帅平 /大数据 /2022-12-19 /1 评论 /264 阅读
Delta Lake希望数据的保留时间小于168小时怎么办? Delta Lake中数据的保留时间默认是7天,也就是:168小时,如果由于磁盘空间有限,希望数据的保留时间小于168小时怎么办?... 帅平 /大数据 /2022-12-19 /1 评论 /292 阅读
数据湖系列(五)Delta Lake数据湖流数据读写 在spark中,目前使用比较强大的就是spark structured streaming,这是在日常工作中经常见到的场景。这篇文章我们介绍下使用流的方式读Delta Lake数据和写Delta Lake数据。一、从... Rae /数据仓库 /2022-12-19 /0 评论 /417 阅读
数据湖系列(四)Delta Lake数据湖ACID操作 在前面我们介绍了Delta Lake的安装,这篇文章我们介绍下数据湖的操作API,即ACID。一、写入数据到Delta Lake把数据写入到Delta Lake中很简单,因为Delta Lake强依赖spark,同时... Rae /数据仓库 /2022-12-19 /0 评论 /523 阅读
热文数据湖系列(三)Delta Lake数据湖的安装 前面我们介绍了delta lake,这篇文章我们来介绍下delta lake的安装使用。在核心上delta lake运行时离不开spark的,虽然他同时支持spark和presto,但是有同学可能问,我如果使用pre... Rae /数据仓库 /2022-12-19 /0 评论 /1143 阅读
数据湖系列(二)Delta Lake数据湖的介绍 在前面我们大致的介绍了数据湖,并且列举了几个比较常用的数据湖解决方案。这篇文章我们介绍下当下比较流行的数据湖解决方案之一Delta Lake。先来看看Delta Lake的整体架构:Delta Lake是Spark的... Rae /数据仓库 /2022-12-19 /0 评论 /614 阅读
数据湖系列(一)数据湖介绍 在最近几年由于大数据的火爆,企业级的数据呈现爆炸式的增长,在整个大数据的发展过程中经历了大致3个阶段:第一个阶段,企业慢慢向大数据转型,出现了像hadoop这样的底层大数据存储,同时由于hadoop自带分布式计算框架... Rae /数据仓库 /2022-12-19 /0 评论 /380 阅读