上一篇文章《Apache Paimon系列(一)Paimon介绍》我们介绍了paimon相关的一些基础知识,本文的话,我们介绍下在paimon使用过程中经常使用到的3大术语,这三大术语分别是:
快照 分区 桶
相信接触过大数据的小伙伴对这三个术语都不陌生,但是我们在这里还是要介绍下这三个术语。
快照
快照和我们日常接触到的其他软件的概念是一样的,他主要是捕获某个软件在某个时间点下的状态。在paimon中,快照是捕获的某张表在某个时间点的状态,用户可以通过最新的快照来访问表的最新数据。
在paimon中经常我们会涉及到存储多个快照,当某张表有多个快照的时候,用户可以通过对应表之前的快照来访问表之前的状态。举个案例:
今天我们对表a做了一个快照,明天我们会对表a的很多数据做一些更新,此时后天需要查询表a的数据发现数据有误,那么怎么回查呢?我们就可以查今天做的这个快照开回查数据。
分区
在Paimon中,也主要常用分区来分离数据。例如日志表,前端采集的日志每天有很多,这时候我们在做数据存储的时候,我们从逻辑上来说,是把所有的日志都保存在表a里面的,但是对于物理存储来说,我们就需要对这个表a进行分区,例如我们采用日期来进行分区,那此时对于物理存储来说,今天的数据可能就存在服务器a上,明天的数据就存储在服务器b上。(备注:这个比喻有点夸张,但是主要是希望大家能理解。),那么如果要查询数据的时候,我们带上分区的条件,例如查询明天的数据,此时就会带上分区=明天的条件,通过Paimon的路由,就会自动引导到服务器b上去查数据。
桶
桶是Paimon中数据读写的最小单元。也就是哪些未分区表或者分区表中的分区被细分为存储桶,在大数据领域,分桶和分区都是为了更有效的提供数据查询。在paimon中我们设置桶的话,一般按照理论的数据来进行评估,官方建议的每个桶的存储数据大小为1G左右比较合适。
以上就是paimon常用的三大术语概念的介绍。
还没有评论,来说两句吧...