在一些大型互联网企业的数据中台或者数据湖仓建设的过程中,一般都都组件一个或者多个团队用以处理大数据,那么在一个团队里面就会涉及到如下的情况:
1、多个团队分工不同的数据处理模块 2、一个团队中多个人分工不同的数据处理模块
此时的话,每个人与人之间,每个团队与团队之间就会形成工序的流转,那么就会发生一些问题,比如A修改了某些表,B的某些工作依赖于A创建的表,此时A把表给修改了,并未及时的通知B,那么后续的数据处理是不是就会存在很大的问题。所以基于此,一般来说这些大型互联网企业都会建设一套适合自己团队内部情况的数据质量管理平台。
一般来说,对于一个好的数据质量管理平台,他会有如下的特点:
1、同时支持多个数据源的表及数据的监测。 2、支持数据精度的监测,需要有目标值,预期值,规则等。 3、支持监测库表出现的变化,包括不仅限于:数据库表的增删,表字段的增删修改等。 4、支持数据完整性监测,例如监测库表中数据出现空值,重复值,逻辑错误值等数据。 5、支持数据一致性监测,例如A表与B表的数据是否一致。 6、支持数据规范性监测,例如A表中的性别只能是男女,是否突然多了其他的值 等等
所以对于数据研发相关的团队来说,数据质量管理平台是非常的重要的,他可以统筹监测到多个不同团队,不同个人之间的协作是否出现问题。
在目前的互联网上,开源的数据质量管理平台非常多,例如:
1、Qualitis 开源地址是:https://github.com/WeBankFinTech/Qualitis 2、Apache Griffin 开源地址是:https://github.com/apache/griffin.git 3、Deequ 开源地址是:https://github.com/awslabs/deequ 4、Great expectations 开源地址是:https://github.com/great-expectations/great_expectations 5、DataCleaner 开源地址是:https://github.com/datacleaner/DataCleaner 6、MobyDQ 开源地址是:https://github.com/ubisoft/mobydq 7、Soda Core 开源地址是:https://github.com/sodadata/soda-core 8、Datavines 开源地址是:https://github.com/datavane/datavines ......还有很多
这里我们介绍下datavinces这个开源的数据质量管理平台。这是我近期接触到的,使用起来感觉符合中国人的习惯,简单方便。同时相关的功能都有,后期还会支持数据血缘等,看起来还不错,所以在这里编写此系列的文章,记录下整个学习使用过程。
一、datavines概述
首先datavines的官网介绍里面,datavines的介绍是:
Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力。 致力于帮助用户全面地了解和掌管数据,让您做到心中有数。
同时我看了他未来的规划模块,会支持如下的功能:
支持血缘关系管理 支持 Flink 引擎 支持 Spark on K8s 在 DolphinScheduler 中增加 Datavines 任务类型(开发中)
对于后面3点来说,这是目前大数据开发常涉及到的东西,如果后期吧血缘关系管理给加上了,那么此软件就比较完善了。
二、datavines架构
官方提供的整体架构图如下:
上诉的架构看起来也非常的合理。在我使用的时候也没有出现过各种奇奇怪怪的问题。说明目前datavines相对来说是比较稳定的。建议大家试用下。
还没有评论,来说两句吧...