请教下大家公司生产环境中湖仓一体是怎么构建的?

提问者:帅平 问题分类:大数据
请教下大家公司生产环境湖仓一体是怎么构建的?
9 个回答
つ浅笑嫣然
つ浅笑嫣然
我们湖仓一体主要基于iceberg+starrocks构建,iceberg构建分钟级准实时数仓和小时级离线数仓,starrocks构建秒级实时数仓和复杂即席查询,采用存算分离架构,iceberg的数据放到对象存储,基于alluxio做为缓存,spark,flink,starrocks on k8s。大体是这样
发布于:4天前 IP属地:四川省
得治
得治
iceberg使用spark计算引擎,starrocks使用flink计算引擎?
发布于:4天前 IP属地:四川省
久碍
久碍
iceberg使用spark计算引擎,starrocks使用flink计算引擎?
starrocks混合部署,有be和cn,cn部署到k8s上,be和fe是存算一体部署方式,共用fe,be主要做秒级实时数仓计算,cn是做一些复杂冷热数据的即席查询。iceberg既使用spark也使用flink,由于iceberg对changlog支持不好,我们进行底层实现,生成changlog,使用flink读取iceberg,达到分钟级计算。
发布于:4天前 IP属地:四川省
原来无话可说
原来无话可说
starrocks混合部署,有be和cn,cn部署到k8s上,be和fe是存算一体部署方式,共用fe,be主要做秒级实时数仓计算,cn是做一些复杂冷热数据的即席查询。iceberg既使用spark也使用flink,由于iceberg对changlog支持不好,我们进行底层实现,生成changlog,使用flink读取iceberg,达到分钟级计算。
那iceberg到starrocks能做到秒级实时?
发布于:4天前 IP属地:四川省
娇喘界的扛把子
娇喘界的扛把子
那iceberg到starrocks能做到秒级实时?
starrocks这边很少使用flink进行复杂计算,多数就是做数据导入,更多是建立外表管理iceberg中冷数据,实现冷热数据的即席查询。
发布于:4天前 IP属地:四川省
天然纯勋勋
天然纯勋勋
starrocks这边很少使用flink进行复杂计算,多数就是做数据导入,更多是建立外表管理iceberg中冷数据,实现冷热数据的即席查询。
如果是 千万级 亿级的数据,外表查询不慢吗?
发布于:4天前 IP属地:四川省
等你许久
等你许久
如果是 千万级 亿级的数据,外表查询不慢吗?
做不到,我们把计算任务划分3个等级,分为秒,分,时。秒级的任务一般在starrocks里面做。
发布于:4天前 IP属地:四川省
有个笨蛋住进我心
有个笨蛋住进我心
做不到,我们把计算任务划分3个等级,分为秒,分,时。秒级的任务一般在starrocks里面做。
秒级的,你们用什么同步到Starrocks?
发布于:4天前 IP属地:四川省
旧梦拾遗べ忆往昔
旧梦拾遗べ忆往昔
秒级的,你们用什么同步到Starrocks?
实时同步starrocks,这边基于flinkcdc或者封装的streamload导入。
发布于:4天前 IP属地:四川省
我来回答