Rae 第40页 - 智汇技术

热文数仓架构构建实战思路（十七）数仓开发流程

上文《数仓架构构建实战思路（十六）表设计原则很重要》我们根据表设计思路，完成各个层，各个模块的表设计，接下来就是开发了。所以这里其实主要是相对团队来说布置任务。但是对于布置任务来说，我们还是来捋一捋整个数仓的开发流程...

Rae /数据仓库 /2024-03-29 /0 评论 /1321 阅读

前面我们已经完成了：业务熟悉分层策划模型选择指标拆分那么接下来我们就开始表设计了，这里的表设计的话我们一般会首先设计DIM层，因为DIM层是维度枚举层。此时会把相关所有的业务枚举都统一转换一下，然后放到DIM层...

Rae /数据仓库 /2024-03-29 /0 评论 /1112 阅读

做数据仓库的时候，我们不仅仅只是为了做数据存储和方便为前端提供快捷的查询。很多同学对于数据仓库的理解就是：建立数据仓库的目的就是配合前端产品业务的需求，对外提供大数据量的存储（解决mysql存储的局限）及提供快速的查...

Rae /数据仓库 /2024-03-29 /0 评论 /1658 阅读

完成了前面的工作之后，我们就要开始进行模型的抽象设计了。在建模的时候，我们需要对整体的业务数据进行抽象，根据如下的领域进行分类抽象整理：1、业务主线 2、具体业务 3、领域概念 4、实体、事件、说明等我们这里画张图来...

Rae /数据仓库 /2024-03-29 /0 评论 /1138 阅读

在设计模型的时候，我们还是需要提前做好一些规范，对于我们的规范来说，主要有以下几点：一、高内聚，低耦合这是所有数仓相关的文章都会给大家介绍的。但是如何理解呢？其实我们在实际的过程中主要是通过业务分类的形式来进行高内聚...

Rae /数据仓库 /2024-03-28 /0 评论 /1044 阅读

前面我们完成了数据仓库的分层设计，接下来就要开始建模了。建模之前，我们要考虑的就是如何选择建模的模型。在数仓中常用的模型主要分为3大类，分别是：1、维度模型 2、ER模型 3、Data Vault模型 4、Ancho...

Rae /数据仓库 /2024-03-28 /0 评论 /1047 阅读

上文《数仓架构构建实战思路（十）数仓如何进行分层》我们介绍了书层的标准分层，接下来我们就需要考虑实际的分层设计了。这里的设计我们需要遵守一些分层的原则，在本文咱们列举一下：1、清晰简洁原则分层设计应该简洁明了，每个层...

Rae /数据仓库 /2024-03-28 /0 评论 /1153 阅读

建设过数仓的同学大概都能了解到，我们目前大部分情况下都是按照数仓进行的标准分层，也就是按照如下的几层分别建设的：1、ODS层 2、DWD层 3、DWS层 4、DIM层 5、ADS层基于上面几层的话，我们每一层是如何放...

Rae /数据仓库 /2024-03-28 /0 评论 /1203 阅读

上文《数仓架构构建实战思路（八）数据采集部分建设》我们介绍了采集部分，接下来的话我们介绍中间的ETL部分。ETL的处理方式有很多，一般主要是：1、数据关联 2、错误数据的纠正 3、无效数据的剔除 4、数据的重新整合处...

Rae /数据仓库 /2024-03-28 /0 评论 /1161 阅读

上文《数仓架构构建实战思路（七）技术架构选型很重要》完成了技术选型之后，我们就要开始细化了。建设数仓，无外乎主要涉及到三大部分，分别是：1、数据采集 2、数据ETL 3、数据存储/查询所以在细化的第一步，我们主要考虑...

Rae /数据仓库 /2024-03-28 /0 评论 /908 阅读

在前面，我们分别介绍了lambda架构（《数仓架构构建实战思路（五）技术架构之lambda架构》）和kappa架构（《数仓架构构建实战思路（六）技术架构之kappa架构》）。当然在数仓领域还有其他的架构比如：IOTA...

Rae /数据仓库 /2024-03-28 /0 评论 /802 阅读

上文《数仓架构构建实战思路（五）技术架构之lambda架构》我们介绍了lambda相关的架构，本文来介绍下kappa的架构。先上一张图：此kappa的架构是目前非常流行的湖仓一体的架构，他的整体计算框架只有一个fli...

Rae /数据仓库 /2024-03-28 /0 评论 /1033 阅读

接下来我们就开始做相关的技术架构设计了，在数仓的领域里面，常见的架构设计方案有好几种，这几篇文章我们都挨个来介绍下。本文主要介绍的是lambda架构。首先上一个lambda架构图：这种Lambda架构目前来说，使用的...

Rae /数据仓库 /2024-03-28 /0 评论 /1032 阅读

日常工作中直接读取kafka的数据写入doris也是一个非常常见的场景，下面演示下使用spark读取kafka的数据写入doris。直接上代码：val kafkaSource = spark .readStream ...

Rae /spark项目实战 /2024-03-28 /0 评论 /1301 阅读

上文《大数据实战系列（三）Spark 实现读取hive数据写入kafka》我们实现了利用spark读取hive的数据写入kafka，本文的话我们实现利用spark读取kafka的数据然后写入hive中。直接上代码：v...

Rae /spark项目实战 /2024-03-28 /0 评论 /1326 阅读