热文数仓架构构建实战思路(十五)指标拆解很重要 做数据仓库的时候,我们不仅仅只是为了做数据存储和方便为前端提供快捷的查询。很多同学对于数据仓库的理解就是:建立数据仓库的目的就是配合前端产品业务的需求,对外提供大数据量的存储(解决mysql存储的局限)及提供快速的查... Rae数据仓库2024-03-291137 阅读0 评论
数仓架构构建实战思路(十四)模型设计之模型抽象 完成了前面的工作之后,我们就要开始进行模型的抽象设计了。在建模的时候,我们需要对整体的业务数据进行抽象,根据如下的领域进行分类抽象整理:1、业务主线 2、具体业务 3、领域概念 4、实体、事件、说明等我们这里画张图来... Rae数据仓库2024-03-29845 阅读0 评论
数仓架构构建实战思路(十三)模型设计之设计原则 在设计模型的时候,我们还是需要提前做好一些规范,对于我们的规范来说,主要有以下几点:一、高内聚,低耦合这是所有数仓相关的文章都会给大家介绍的。但是如何理解呢?其实我们在实际的过程中主要是通过业务分类的形式来进行高内聚... Rae数据仓库2024-03-28745 阅读0 评论
数仓架构构建实战思路(十二)模型设计之模型选择 前面我们完成了数据仓库的分层设计,接下来就要开始建模了。建模之前,我们要考虑的就是如何选择建模的模型。在数仓中常用的模型主要分为3大类,分别是:1、维度模型 2、ER模型 3、Data Vault模型 4、Ancho... Rae数据仓库2024-03-28706 阅读0 评论
数仓架构构建实战思路(十一)数仓分层原则 上文《数仓架构构建实战思路(十)数仓如何进行分层》我们介绍了书层的标准分层,接下来我们就需要考虑实际的分层设计了。这里的设计我们需要遵守一些分层的原则,在本文咱们列举一下:1、清晰简洁原则分层设计应该简洁明了,每个层... Rae数据仓库2024-03-28805 阅读0 评论
数仓架构构建实战思路(十)数仓如何进行分层 建设过数仓的同学大概都能了解到,我们目前大部分情况下都是按照数仓进行的标准分层,也就是按照如下的几层分别建设的:1、ODS层 2、DWD层 3、DWS层 4、DIM层 5、ADS层基于上面几层的话,我们每一层是如何放... Rae数据仓库2024-03-28773 阅读0 评论
数仓架构构建实战思路(九)ETL部分建设 上文《数仓架构构建实战思路(八)数据采集部分建设》我们介绍了采集部分,接下来的话我们介绍中间的ETL部分。ETL的处理方式有很多,一般主要是:1、数据关联 2、错误数据的纠正 3、无效数据的剔除 4、数据的重新整合处... Rae数据仓库2024-03-28780 阅读0 评论
数仓架构构建实战思路(八)数据采集部分建设 上文《数仓架构构建实战思路(七)技术架构选型很重要》完成了技术选型之后,我们就要开始细化了。建设数仓,无外乎主要涉及到三大部分,分别是:1、数据采集 2、数据ETL 3、数据存储/查询所以在细化的第一步,我们主要考虑... Rae数据仓库2024-03-28628 阅读0 评论
数仓架构构建实战思路(七)技术架构选型很重要 在前面,我们分别介绍了lambda架构(《数仓架构构建实战思路(五)技术架构之lambda架构》)和kappa架构(《数仓架构构建实战思路(六)技术架构之kappa架构》)。当然在数仓领域还有其他的架构比如:IOTA... Rae数据仓库2024-03-28500 阅读0 评论
数仓架构构建实战思路(六)技术架构之kappa架构 上文《数仓架构构建实战思路(五)技术架构之lambda架构》我们介绍了lambda相关的架构,本文来介绍下kappa的架构。先上一张图:此kappa的架构是目前非常流行的湖仓一体的架构,他的整体计算框架只有一个fli... Rae数据仓库2024-03-28663 阅读0 评论
数仓架构构建实战思路(五)技术架构之lambda架构 接下来我们就开始做相关的技术架构设计了,在数仓的领域里面,常见的架构设计方案有好几种,这几篇文章我们都挨个来介绍下。本文主要介绍的是lambda架构。首先上一个lambda架构图:这种Lambda架构目前来说,使用的... Rae数据仓库2024-03-28682 阅读0 评论
大数据实战系列(五)Spark 实现读取kafka数据写入doris 日常工作中直接读取kafka的数据写入doris也是一个非常常见的场景,下面演示下使用spark读取kafka的数据写入doris。直接上代码:val kafkaSource = spark .readStream ... Raespark项目实战2024-03-28899 阅读0 评论
大数据实战系列(四)Spark 实现读取kafka数据写入hive 上文《大数据实战系列(三)Spark 实现读取hive数据写入kafka》我们实现了利用spark读取hive的数据写入kafka,本文的话我们实现利用spark读取kafka的数据然后写入hive中。直接上代码:v... Raespark项目实战2024-03-28885 阅读0 评论
热文大数据实战系列(三)Spark 实现读取hive数据写入kafka 本文的话,我们再介绍下使用使用spark实现读取hive的数据,然后把数据写入到kafka,直接上代码: val spark = SparkSession.builder() .appName("HiveToKafk... Raespark项目实战2024-03-281288 阅读0 评论
大数据实战系列(二)Spark 实现读取hive数据写入doris 上文《大数据实战系列(一)Spark 实现读取doris数据写入hive》我们实现了使用spark读取doris数据然后写入hive,这里的话我们来实现读取hive数据,写入doris。直接上代码: val spar... Raespark项目实战2024-03-28931 阅读0 评论