全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

mysql数据同步到hive的方案有哪些？

提问者：帅平问题分类：大数据

mysql数据同步到hive的方案有哪些？因为会涉及到全量和增量

Hive Mysql

发布于：3年前 (2023-12-07) IP属地：香港

2 个回答

我是蓝天

首先创建一张表A，代表全量表，接着再创建一张表B，代表增量表，第一次使用全量的ETL把数据同步到表A中，后面根据事件规律把数据增量同步到表B中，然后把增量表分区的数据合并到表A，业务上还是查询A表。这是业界目前普遍的做法。

发布于：3年前 (2023-12-07) IP属地：香港

我是蓝天

这种做法有一些缺点需要注意下，根据实际的场景来判断是否使用此方案，具体的缺点有：

架构链路复杂度高：由于链路复杂，每天产出全量分区容易有问题导致不能按时产出，新增业务也比较复杂，全量和增量割裂。
时延高：至少 T + 1 延时，而且需要等全量和增量合并完成。
存储成本高：每天全量表一个分区存储所有数据，意味着 100 天就需要 100 倍的存储成本。
计算成本高：每天需要读取全量数据，与增量数据进行全量合并，在增量数据不多时浪费严重。

发布于：3年前 (2023-12-07) IP属地：香港

我来回答