数据湖系列(六)Delta Lake数据湖的时间旅行
在前面我们介绍过操作Delta Lake数据湖的时候,就像nosql一样,所有的操作都是追加操作而不是直接修改。因此基于上诉的原理,那么在Delta Lake内部肯定是维护了每一次修改的版本号,我们查询的时候默认是查...
这是关于 DeltaLake 标签的相关文章列表
在前面我们介绍过操作Delta Lake数据湖的时候,就像nosql一样,所有的操作都是追加操作而不是直接修改。因此基于上诉的原理,那么在Delta Lake内部肯定是维护了每一次修改的版本号,我们查询的时候默认是查...
在spark中,目前使用比较强大的就是spark structured streaming,这是在日常工作中经常见到的场景。这篇文章我们介绍下使用流的方式读Delta Lake数据和写Delta Lake数据。一、从...
在前面我们介绍了Delta Lake的安装,这篇文章我们介绍下数据湖的操作API,即ACID。一、写入数据到Delta Lake把数据写入到Delta Lake中很简单,因为Delta Lake强依赖spark,同时...
前面我们介绍了delta lake,这篇文章我们来介绍下delta lake的安装使用。在核心上delta lake运行时离不开spark的,虽然他同时支持spark和presto,但是有同学可能问,我如果使用pre...
在前面我们大致的介绍了数据湖,并且列举了几个比较常用的数据湖解决方案。这篇文章我们介绍下当下比较流行的数据湖解决方案之一Delta Lake。先来看看Delta Lake的整体架构:Delta Lake是Spark的...
在最近几年由于大数据的火爆,企业级的数据呈现爆炸式的增长,在整个大数据的发展过程中经历了大致3个阶段:第一个阶段,企业慢慢向大数据转型,出现了像hadoop这样的底层大数据存储,同时由于hadoop自带分布式计算框架...