上文《数仓架构构建实战思路(八)数据采集部分建设》我们介绍了采集部分,接下来的话我们介绍中间的ETL部分。
ETL的处理方式有很多,一般主要是:
1、数据关联 2、错误数据的纠正 3、无效数据的剔除 4、数据的重新整合
处理ETL的方式有很多,目前有一些现成的工具流程来完成数据的ETL,例如我们前面介绍的SeaTunnel和dolphinscheduler等组件,他们由于内置了很多组件,并且添加了流程引擎,所以可以可视化的进行ETL数据计算。这种框架的话,如果做B端业务来说,使用成本低,开发比较快。但是如果是做C端的话,从长远来说还不够,所以一般还是会涉及到flink/spark 的jobs来进行操作。
这里目前来说使用flink的频率会更加大一点,再结合Dinky进行在线编程。是非常不错的一种ETL解决方案。有时间大家可以多了解下。
最后,一定要注意一下,在进行ETL数据处理的时候,一定要取消数据的一致性,确保ExactlyOnce
还没有评论,来说两句吧...