你如何评价一个数据仓库的好坏?

提问者:帅平 问题分类:面试刷题
你如何评价一个数据仓库的好坏?
2 个回答
还有寂寞陪着我
还有寂寞陪着我
一般在中大公司有数仓整体的质量周报,包含内容根据业务关注度有所不同,但是核心的一些指标大同小异。
1、数据质量
准确性:数据应准确反映业务实际情况,可通过与原始数据源比对、校验,以及检查主键唯一性、全链路数据质量监控覆盖等来评估。
完整性:包括数据无缺失值、记录完整,且涵盖业务所需的所有维度和指标,同时数据质量长期跟踪检测体系完善。
一致性:同一信息主体在不同数据集或不同处理阶段的数据应保持一致,例如指标定义、计算口径等要统一。
及时性:数据能在规定的时间内更新和产出,满足业务对数据时效性的要求,如通过SLA来衡量。
2、模型设计
合理性:模型要能满足当下业务需求,并具有前瞻性,可容纳未来业务变化,避免烟囱式开发,提高复用性。
链路简洁性:尽量引用较少的表,降低代码复杂性和任务失败风险,同时避免跨组或部门引用表,减少沟通和权限问题。
分层与主题划分:有清晰的分层(如 ODS、DWD、DWM、DIM 等)和明确的主题域,符合企业数仓分层规范,方便数据管理和使用。
3、执行效率
任务运行时间:能在合理时间内产出数据,满足较高的SLA,避免任务长时间运行或超时。
数据倾斜:不存在严重的数据倾斜问题,以免导致部分任务处理时间过长,影响整体作业进度。
SQL优化:SQL代码具有较高可读性,无冗余,且有优化空间,可通过调整语句提高执行速度。
发布于:5小时前 IP属地:
思念是一种病
思念是一种病
4、资源利用
队列资源申请:申请的 CPU、内存等队列资源合理,利用率处于正常范围,既不浪费也不频繁超发。
成本管理:定期进行成本管理和调控,根据业务重要性合理分配资源,实现成本效益最大化。
5、数据管理与服务
元数据管理:表有中文别名和详细的字段描述,方便其他人员理解和使用,且具备完善的元数据管理系统,可追溯数据的来源、加工过程等。
权限管理:有严格的权限控制,确保数据安全,不同角色的用户只能访问和操作其权限范围内的数据。
数据服务能力:能提供统一的数据接口给业务用户,方便他们获取和使用数据,并且能快速响应用户的查询和分析请求。
6、业务价值
使用率:通过表的周访问 PV、分析覆盖率等指标衡量,使用率高说明数仓对业务的支持力度大。
决策支持:能为企业领导提供准确、及时的数据支持,帮助做出正确的决策,同时能为日常运营和业务问题分析提供有效帮助,发现问题并提供解决方案或思路。
发布于:5小时前 IP属地:
我来回答