2 个回答
首先创建一张表A,代表全量表,接着再创建一张表B,代表增量表,第一次使用全量的ETL把数据同步到表A中,后面根据事件规律把数据增量同步到表B中,然后把增量表分区的数据合并到表A,业务上还是查询A表。这是业界目前普遍的做法。
发布于:1年前 (2023-12-07) IP属地:香港
这种做法有一些缺点需要注意下,根据实际的场景来判断是否使用此方案,具体的缺点有:
架构链路复杂度高:由于链路复杂,每天产出全量分区容易有问题导致不能按时产出,新增业务也比较复杂,全量和增量割裂。
时延高:至少 T + 1 延时,而且需要等全量和增量合并完成。
存储成本高:每天全量表一个分区存储所有数据,意味着 100 天就需要 100 倍的存储成本。
计算成本高:每天需要读取全量数据,与增量数据进行全量合并,在增量数据不多时浪费严重。
发布于:1年前 (2023-12-07) IP属地:香港
我来回答
您需要 登录 后回答此问题!