热文Apache Paimon系列(一)Paimon介绍 Paimon介绍在前面我们介绍过一些目前主流的数据湖相关的平台技术,例如:Hudi Iceberg Delta Lake这几个数据湖的技术上来说,Hudi目前在国内比较火,大家探讨或者平时接触的也会比较多一点,Ice... RaePaimon系列2023-07-132898 阅读0 评论
数据仓库相关术语 数据仓库数据集市事实维度级别数据清洗数据采集数据转换联机分析处理(OLAP OnlineAnalytical Processing )切片切块星型模式雪花模式粒度度量度量值口径指标原子指标:派生指标衍生指标标签自然键... Rae数据仓库2023-07-06955 阅读0 评论
数据仓库中如何对表分区进行度量设计? 在做数据仓库的时候,我们经常会涉及到对表进行分区,这些分区策略有:按照用户进行分区,这里主要是hash分区 按照每日一个分区,这里主要是时间分区 按照每周一个分区,这里主要是时间分区 按照每月一个分区,这里主要是时间... Rae数据仓库2023-03-17915 阅读0 评论
热文Doris基础学习系列(三十六)Multi-Catalog 功能 在doris1.2版本开始,新提供了一种Multi-Catalog 功能,他的主要含义就是无缝对接外部异构的数据源,用户无需把数据导入到doris中,即可使用doris来创建一个Catalog,然后通过Catalog... Raedoris系列2023-03-132185 阅读0 评论
数据仓库的建设演进方案介绍 现如今对于互联网公司来说,数据的积累越来越多,同时我们也需要最大化的挖掘数据的价值,因此在各个公司都会有数据仓库的建设。这篇文章浅谈下各业务公司在各个阶段对于数仓建设的演进和适配方案。本文仅谈谈相关的数据仓库的建设方... Rae数据仓库2022-12-28904 阅读0 评论
热文Flume日志采集系列(一)把数据采集到hdfs上 Flume在现在的大数据采集方面使用范围非常的广。所以这个工具也得学会使用,这篇文章介绍下把日志采集到hdfs,然后供数仓进行数据分析。下面直接来演示一下。一、准备一个hadoop环境如果想要把日志文件的数据采集到h... Rae数据迁移2022-12-222462 阅读0 评论
热文数据湖系列(七)Apache Hudi的介绍 在数据湖的解决方案里面,Delta Lake和Apache Hudi是目前非常火爆的两种数据湖的解决方案,前面我们介绍了Delta Lake,这篇文章我们介绍下Apache Hudi。Apache Hudi 摄取并管... Rae数据仓库2022-12-201513 阅读0 评论
热文数据湖系列(六)Delta Lake数据湖的时间旅行 在前面我们介绍过操作Delta Lake数据湖的时候,就像nosql一样,所有的操作都是追加操作而不是直接修改。因此基于上诉的原理,那么在Delta Lake内部肯定是维护了每一次修改的版本号,我们查询的时候默认是查... Rae数据仓库2022-12-191169 阅读0 评论
热文数据湖系列(五)Delta Lake数据湖流数据读写 在spark中,目前使用比较强大的就是spark structured streaming,这是在日常工作中经常见到的场景。这篇文章我们介绍下使用流的方式读Delta Lake数据和写Delta Lake数据。一、从... Rae数据仓库2022-12-191126 阅读0 评论
热文数据湖系列(四)Delta Lake数据湖ACID操作 在前面我们介绍了Delta Lake的安装,这篇文章我们介绍下数据湖的操作API,即ACID。一、写入数据到Delta Lake把数据写入到Delta Lake中很简单,因为Delta Lake强依赖spark,同时... Rae数据仓库2022-12-191220 阅读0 评论
热文数据湖系列(三)Delta Lake数据湖的安装 前面我们介绍了delta lake,这篇文章我们来介绍下delta lake的安装使用。在核心上delta lake运行时离不开spark的,虽然他同时支持spark和presto,但是有同学可能问,我如果使用pre... Rae数据仓库2022-12-192589 阅读0 评论
热文数据湖系列(二)Delta Lake数据湖的介绍 在前面我们大致的介绍了数据湖,并且列举了几个比较常用的数据湖解决方案。这篇文章我们介绍下当下比较流行的数据湖解决方案之一Delta Lake。先来看看Delta Lake的整体架构:Delta Lake是Spark的... Rae数据仓库2022-12-191432 阅读0 评论
热文数据湖系列(一)数据湖介绍 在最近几年由于大数据的火爆,企业级的数据呈现爆炸式的增长,在整个大数据的发展过程中经历了大致3个阶段:第一个阶段,企业慢慢向大数据转型,出现了像hadoop这样的底层大数据存储,同时由于hadoop自带分布式计算框架... Rae数据仓库2022-12-191288 阅读0 评论
热文Doris基础学习系列(三十五)Doris运维之be监控 在doris中除了fe相关的监控之外,我们还会涉及到be的监控。be的监控访问地址是:http://{host}:{port}/metrics。be的端口一般是8040。例如:关于be相关的监控项内容有:序号监控项说... Raedoris系列2022-11-151047 阅读0 评论
热文Doris基础学习系列(三十四)Doris运维之fe监控 在使用doris的时候,配置监控也是一个必须要操作的步骤。这篇文章我们介绍下doris的fe相关的监控信息。在doris中fe的监控访问地址是:http://{host}:{port}/metrics,端口一般是80... Raedoris系列2022-11-151221 阅读0 评论