正文

数仓架构构建实战思路（十八）数据治理很重要（数据血缘关系）

Rae V管理员 /2024-03-29/1.63 K阅读/0评论

0329

此篇文章发布距今已超过829天，您需要注意文章的内容或图片是否可用！

根据前面的数据仓库我们已经开始进入开发阶段，那么接下来的话，需要筹划的就是数据治理。也就是大家经常涉及到的数据血缘关系的建设。

在整个数据仓库里面，我们会涉及到很多的存储组件，这些存储组件里面会涉及到成千上万个库，每一个库还会存在成千上万张表。随着时间的推移或者团队内部人员的更迭，这些库表就会发生混淆，产生的情况就是大家不知道哪些库表与哪些库表需要进行关联，哪些库表是由哪些库表流转过来的。所以这里对于元数据的管理非常的重要。一般做数据仓库的团队在中期都要开始筹划数据治理的建设。

目前比较流行的数据血缘关系管理平台有：

atlas
datahub

但是个人建议使用datahub比较好一点。这里不做过多的介绍，详情可参考：《DataHub实战系列》.

在做数据治理的时候，我们一定要考虑如下的因素

1、每一个库的上级是谁。
2、每一个库的下级有哪些？
3、每一张表所述库是谁
4、每一张表的上级有哪些？
5、每一张表的下级有哪些？
6、每一张表的每一个字段的计算公式是什么
7、每一张表的业务口径（描述）是什么
8、每一张表的生命周期是什么（什么时候创建的，是否有结束时间，如果有，需要标注一下）
9、每一张表是否可以进行汇总
10、每一张表是否可以进行向上汇总

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路