正文

数仓架构构建实战思路（九）ETL部分建设

Rae V管理员 /2024-03-28/945阅读/0评论

0328

文章最后更新时间2024年03月28日，若文章内容或图片失效，请留言反馈！

上文《数仓架构构建实战思路（八）数据采集部分建设》我们介绍了采集部分，接下来的话我们介绍中间的ETL部分。

ETL的处理方式有很多，一般主要是：

1、数据关联
2、错误数据的纠正
3、无效数据的剔除
4、数据的重新整合

处理ETL的方式有很多，目前有一些现成的工具流程来完成数据的ETL，例如我们前面介绍的SeaTunnel和dolphinscheduler等组件，他们由于内置了很多组件，并且添加了流程引擎，所以可以可视化的进行ETL数据计算。这种框架的话，如果做B端业务来说，使用成本低，开发比较快。但是如果是做C端的话，从长远来说还不够，所以一般还是会涉及到flink/spark 的jobs来进行操作。

这里目前来说使用flink的频率会更加大一点，再结合Dinky进行在线编程。是非常不错的一种ETL解决方案。有时间大家可以多了解下。

最后，一定要注意一下，在进行ETL数据处理的时候，一定要取消数据的一致性，确保ExactlyOnce

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路

-- 展开阅读全文 --