mysql数据同步到hive的方案有哪些?

提问者:帅平 问题分类:大数据
mysql数据同步到hive的方案有哪些?因为会涉及到全量和增量
2 个回答
我是蓝天
我是蓝天
首先创建一张表A,代表全量表,接着再创建一张表B,代表增量表,第一次使用全量的ETL把数据同步到表A中,后面根据事件规律把数据增量同步到表B中,然后把增量表分区的数据合并到表A,业务上还是查询A表。这是业界目前普遍的做法。
发布于:7个月前 (12-07) IP属地:香港
我是蓝天
我是蓝天
这种做法有一些缺点需要注意下,根据实际的场景来判断是否使用此方案,具体的缺点有:
架构链路复杂度高:由于链路复杂,每天产出全量分区容易有问题导致不能按时产出,新增业务也比较复杂,全量和增量割裂。
时延高:至少 T + 1 延时,而且需要等全量和增量合并完成。
存储成本高:每天全量表一个分区存储所有数据,意味着 100 天就需要 100 倍的存储成本。
计算成本高:每天需要读取全量数据,与增量数据进行全量合并,在增量数据不多时浪费严重。
发布于:7个月前 (12-07) IP属地:香港
我来回答