数仓架构构建实战思路(九)ETL部分建设 上文《数仓架构构建实战思路(八)数据采集部分建设》我们介绍了采集部分,接下来的话我们介绍中间的ETL部分。ETL的处理方式有很多,一般主要是:1、数据关联2、错误数据的纠正3、无效数据的剔除4、数据的重新... Rae /数据仓库 /2024-03-28 /0 评论 /146 阅读
数仓架构构建实战思路(八)数据采集部分建设 上文《数仓架构构建实战思路(七)技术架构选型很重要》完成了技术选型之后,我们就要开始细化了。建设数仓,无外乎主要涉及到三大部分,分别是:1、数据采集2、数据ETL3、数据存储/查询所以在细化的第一步,我们主要... Rae /数据仓库 /2024-03-28 /0 评论 /147 阅读
数仓架构构建实战思路(七)技术架构选型很重要 在前面,我们分别介绍了lambda架构(《数仓架构构建实战思路(五)技术架构之lambda架构》)和kappa架构(《数仓架构构建实战思路(六)技术架构之kappa架构》)。当然在数仓领域还有其他的架构比如:IOTA... Rae /数据仓库 /2024-03-28 /0 评论 /135 阅读
数仓架构构建实战思路(六)技术架构之kappa架构 上文《数仓架构构建实战思路(五)技术架构之lambda架构》我们介绍了lambda相关的架构,本文来介绍下kappa的架构。先上一张图:此kappa的架构是目前非常流行的湖仓一体的架构,他的整体计算框架只有一个fli... Rae /数据仓库 /2024-03-28 /0 评论 /123 阅读
数仓架构构建实战思路(五)技术架构之lambda架构 接下来我们就开始做相关的技术架构设计了,在数仓的领域里面,常见的架构设计方案有好几种,这几篇文章我们都挨个来介绍下。本文主要介绍的是lambda架构。首先上一个lambda架构图:这种Lambda架构目前来说,使用的... Rae /数据仓库 /2024-03-28 /0 评论 /151 阅读
大数据实战系列(五)Spark 实现读取kafka数据写入doris 日常工作中直接读取kafka的数据写入doris也是一个非常常见的场景,下面演示下使用spark读取kafka的数据写入doris。直接上代码:val kafkaSource = spa... Rae /spark项目实战 /2024-03-28 /0 评论 /138 阅读
大数据实战系列(四)Spark 实现读取kafka数据写入hive 上文《大数据实战系列(三)Spark 实现读取hive数据写入kafka》我们实现了利用spark读取hive的数据写入kafka,本文的话我们实现利用spark读取kafka的数据然后写入hive中。直接上代码:v... Rae /spark项目实战 /2024-03-28 /0 评论 /127 阅读
大数据实战系列(三)Spark 实现读取hive数据写入kafka 本文的话,我们再介绍下使用使用spark实现读取hive的数据,然后把数据写入到kafka,直接上代码: val spark = SparkSession.builder()... Rae /spark项目实战 /2024-03-28 /0 评论 /138 阅读
大数据实战系列(二)Spark 实现读取hive数据写入doris 上文《大数据实战系列(一)Spark 实现读取doris数据写入hive》我们实现了使用spark读取doris数据然后写入hive,这里的话我们来实现读取hive数据,写入doris。直接上代码: val... Rae /spark项目实战 /2024-03-28 /0 评论 /138 阅读
大数据实战系列(一)Spark 实现读取doris数据写入hive 这个系列的话我们主要是记录一些实战的代码,方便大家在使用的时候实现直接照抄即可。本文主要介绍的是使用Spark实现读取doris数据并且写入hive的案例,直接上代码://初始化spark envval... Rae /spark项目实战 /2024-03-28 /0 评论 /128 阅读