上文《数仓架构构建实战思路(五)技术架构之lambda架构》我们介绍了lambda相关的架构,本文来介绍下kappa的架构。先上一张图:
此kappa的架构是目前非常流行的湖仓一体的架构,他的整体计算框架只有一个flink,整个流程几乎是近实时的。并且从上面可以看到,整体的架构是属于存算分离的架构。是不是比起lambda架构更简单了?
这里我们还是介绍下kappa架构的优点:
1、必要的时候可以进行全量计算,没有离线和在线的区分,服务器开销非常少。 2、只需要面向一个flink框架进行开发,整体的开发,测试,运维难度相对较小。
当然这个kappa架构还是有缺点的,例如:
1、处理历史数据的能力有限。 2、存储组件较多,需要存储新旧数据,存储开销比较大。
但是综上所述,我们如果使用巧妙的策略,合理的处理历史数据。那么一般来说我们建议还是使用这里的kappa架构。
这里kappa架构一般涉及到的技术有:
1、kafka(消息队列,但是目前建议可以转换到plusar上,他的存算分离和function在日常工作中是非常好用,极大的减少了研发成本)。 2、flink(分布式计算框架) 3、Iceberg,doris,hbase(存储框架) 4、等等
以上就是关于kappa架构的相关介绍,大家有时间可以多了解下。
还没有评论,来说两句吧...