上文《数仓架构构建实战思路(七)技术架构选型很重要》完成了技术选型之后,我们就要开始细化了。建设数仓,无外乎主要涉及到三大部分,分别是:
1、数据采集 2、数据ETL 3、数据存储/查询
所以在细化的第一步,我们主要考虑数据采集的部分。
一般来说数据采集的话,我们会涉及到场景有:
1、离线定时采集 2、在线实时采集
从采集程度来说,我们又要分为:
1、全量数据采集 2、增量数据采集
基于上诉的采集的话,我们介绍下相关的技术框架选型。
离线定时采集
离线定时采集一般都是全量+增量一体的数据采集,所以一般常用的采集技术框架主要是:
sqoop
在线实时采集
在线实时采集的话一般全量和增量采集是独立分开的任务。所以可参考的采集工具有:
1、flume,logstash(用于日志的采集) 2、datax,flinkcdc(用于数据库的采集) 3、SeaTunnel,dolphinscheduler(可视化采集工具) 4、等等
当然采集的话,一般来说都是需要经过etl的过程,所以采集完成之后,数据一般都是首先放入到消息队列里面的。对于消息队列的选项,我们建议采用:
1、kafka(使用范围,频率做大,技术成熟) 2、pulsar(存算分离,新兴mq,有比较好的发展趋势)
以上就是我们做细化工作的第一步,采集部分的技术选型。
还没有评论,来说两句吧...