上文《数仓架构构建实战思路(十六)表设计原则很重要》我们根据表设计思路,完成各个层,各个模块的表设计,接下来就是开发了。所以这里其实主要是相对团队来说布置任务。
但是对于布置任务来说,我们还是来捋一捋整个数仓的开发流程。
目前对于团队来说,开发流程主要是如下5步走:
1、代码开发 2、脚本编写 3、性能要求 4、任务调度 5、性能优化
这几步的话我们挨个介绍下:
1、代码开发
这里的代码开发就真的是代码开发,例如:
1、数据采集相关的对接开发。 2、数据ETL相关的清洗转换开发。 3、数据的入仓入户开发。 4、数仓公共接口平台的开发。 5、等等
所以这里的话一般对于团队来说,可能会涉及到不同的角色,例如:
1、大数据开发团队 2、web开发团队
2、脚本编写
脚本编写的话一般主要是涉及到运维的部分,例如:
1、大数据集群的搭建 2、运维监控相关的搭建 3、可视化运维平台的搭建 4、等等
3、性能要求
这里的话主要是具体的实施,如果我们前期进行了全流程的demo演示的话,差不多会提前策划出每一个大数据组件部分的性能要求。
4、任务调度
这个也是大数据非常重要的组成部分,比如研发团队研发的job,如果调度运行。一般我们采用的都是可视化调度平台,可参考《dolphinscheduler调度器》。
5、性能优化
这就是在后续数据仓库持续运转中做的各项性能优化部分。
还是那句话,前面的铺垫工作做完之后,直接按照此流程开始数据仓库的建设即可。
还没有评论,来说两句吧...