根据前面的数据仓库我们已经开始进入开发阶段,那么接下来的话,需要筹划的就是数据治理。也就是大家经常涉及到的数据血缘关系的建设。
在整个数据仓库里面,我们会涉及到很多的存储组件,这些存储组件里面会涉及到成千上万个库,每一个库还会存在成千上万张表。随着时间的推移或者团队内部人员的更迭,这些库表就会发生混淆,产生的情况就是大家不知道哪些库表与哪些库表需要进行关联,哪些库表是由哪些库表流转过来的。所以这里对于元数据的管理非常的重要。一般做数据仓库的团队在中期都要开始筹划数据治理的建设。
目前比较流行的数据血缘关系管理平台有:
atlas datahub
但是个人建议使用datahub比较好一点。这里不做过多的介绍,详情可参考:《DataHub实战系列》.
在做数据治理的时候,我们一定要考虑如下的因素
1、每一个库的上级是谁。 2、每一个库的下级有哪些? 3、每一张表所述库是谁 4、每一张表的上级有哪些? 5、每一张表的下级有哪些? 6、每一张表的每一个字段的计算公式是什么 7、每一张表的业务口径(描述)是什么 8、每一张表的生命周期是什么(什么时候创建的,是否有结束时间,如果有,需要标注一下) 9、每一张表是否可以进行汇总 10、每一张表是否可以进行向上汇总
还没有评论,来说两句吧...