上文《数仓架构构建实战思路(二)数据测算很重要》我们对数据进行了测算,接下来就要对任务进行评估了。
在数仓的建设中,任务评估也是一个非常重要的是,所有的任务无外乎以下几种:
1、定时任务 2、批处理任务 3、流处理任务 4、OLAP任务
这些任务主要处理的场景有:
1、定时任务
例如我们经常会涉及到定时从某个数据源拉取数据,定时跑某个脚本,定时跑ELT任务等等。这种我们从初期的数据测算及产品需求能大致的估一个数据量出来。
2、批处理任务
这种批处理任务的话,一般我们主要是在某个时间点,特定的根据某个任务处理某一批的数据,常见的场景有:
1、批量从ftp/hdfs 读取文件获取数据 2、批量的跑sql,把数据从obs跑到dwd等层面的表。 3、批量的生成报表数据 4、等等
3、流处理任务
这里的流处理目前主要是flink相关的job数量,比如我们有多少业务,大概需要多少job处理数据,这里我们需要大致评估一下。
4、OLAP任务
这种的话一般是定时任务+批处理任务的一个合集,常见的场景主要是生成报表及数仓数据升层。
以上是我们需要评估的任务情况,对于数仓平台来说,不仅仅是考虑存储的情况,数据处理能力也是一个非常重要的指标,他决定了我们的服务器数量,计算资源,存储资源,网络资源。评估任务数可以让我们确定可以大致同时运行的任务数量和类型,保证最终所有任务按照预定的顺序或者优先级顺序进行执行,避免发生资源不足的情况,从而产生任务之间的冲突和竞争。保证高质量的向前端业务提供数据域。
还没有评论,来说两句吧...