上文《数仓架构构建实战思路(一)熟悉业务很重要》我们介绍了前期熟悉业务。这里的话我们就进入到数仓的实施阶段。
既然要做数仓,那么说明产品相关的设计已经完成了。那么接下来我们就从0构建1个数仓,挨个来介绍数仓的建设思路。
本文主要介绍的是数据测算模块。
数据测算
这里的数据测算主要是数仓实施的第二步,我们在了解需求之后,我们需要根据数据测算来考虑我们接下来如何实施数仓的建设。这里数据测算主要从以下几个方面来进行考虑。
1、数据特点
这里的数据特点的话,我们需要考究的是:
1)数据来源
这里的数据来源主要是考量数据是在内部系统流转的数据,还是包括外部第三方的数据。
2)数据结构
数据的话同时也要分为:是否是结构化的数据(标准sql类的数据)还是会有非结构化的数据(文本数据)
3)数据对接方式
这里的对接方式主要是来源于第三方,这种第三方提供给我们数据常见的主要有3种,分别是:
1、直接提供文本类型的数据,需要咱们解析 2、提供接口调用,需要咱们主动获取数据 3、提供数据源,需要咱们直接连接数据库等三方组件提取数据
4)数据时效性
这里的数据时效性也是一个大头,决定了在我们的数仓中,哪些数据需要长期永久保留,哪些数据需要临时保留。
2、增长数据量
这里的数据量的话需要考虑的有:
1、我们的原始全量数据有多少 2、每天增量的数据能有多少 3、每天增量的实时数据有多少 4、美图增量的离线数据有多少 5、每天应用于实时业务的增量数据有多少
咱们根据上面的指标评估出数据的增长量,合理的分配存储,带宽,计算等资源。
3)数据质量
接下来需要测算的是数据的质量,例如:
1、去重的数据量 2、无效的数据量 3、错误的数据量
4)数据安全
最后我们对于数据的测算的话,我们需要考量的是数据的安全。即所有的数据如何保存,如何备份,如何回复,如何加密。此方面也会对于我们对于数据的分配存储,计算,带宽等资源有影响。
以上就是我们对于数据测量的说明,提前做好数据测量,对于我们规划后期的数仓存储有相当大的作用。
还没有评论,来说两句吧...