Hue使用系列(二)Hue配置hive查询教程 上文《Hue使用系列(一)使用docker快速部署Hue》我们已经完成了Hue的快速部署,这里的话,我们配置下Hue的hive信息。1)部署hive这里我们需要部署hive,详情可参考《Hive安装配置篇(一)Hiv... Rae /大数据 /2024-01-22 /0 评论 /217 阅读
Hue使用系列(一)使用docker快速部署Hue 最近由于在写相关的spark+hudi+hive相关的文章。关于大数据的部分涉及到的组件等信息非常多,由于在数据仓库的应用上,使用hive创建数据仓库的方案已经很成熟了,所以对于hive来说我们不能一直停留在使用命令... Rae /大数据 /2024-01-22 /0 评论 /217 阅读
【分享】Flink/Doris生产环境方案选型的一些思考 各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务... Rae /大数据 /2024-01-10 /0 评论 /372 阅读
Flink应用开发系列(六十八)FlinkCDC整库同步doris(支持表结构动态变更) 现如今大部分ToC的业务中都会有一些建数仓的需求,所以对于流批一体化建设数仓的需求非常多。目前建立流批一体化的数仓方案主要以Flinkcdc+doris为主(大多数企业目前几乎都在使用此方案)。所以这里我们也来介绍下... Rae /flink系列 /2023-12-08 /0 评论 /901 阅读
Hbase高级进阶系列(七)Hbase表Region过多怎么办? 我们知道在hbase中,所有的region之间会共享一块memstore内存区域,所以如果region越多,那么memsotre刷新的就会很频繁,此时会产生非常多小的HFiles,这些小的Hfile就会触发更多的合并... Rae /Hbase系列 /2023-11-29 /0 评论 /289 阅读
Hbase高级进阶系列(六)Hbase表设计之预分区 在前面的文章《Hbase高级进阶系列(三)Hbase表设计之行键设计》里面我们介绍了一般建议把rowkey做成hash来分散写入压力。在hbase中,一般在创建表的时候,默认是只创建一个region,后面随着数据的增... Rae /Hbase系列 /2023-11-29 /0 评论 /254 阅读
Hbase高级进阶系列(六)布隆过滤器 在hbase中,布隆过滤器是打开的,这个布隆过滤器主要的目的是为了方便检索region,减少磁盘i/o的操作。举个案例来说明hbase是如何应用布隆过滤器的:写操作当有数据发生写入的时候,首先我们会去找需要把这个数据... Rae /Hbase系列 /2023-11-29 /0 评论 /253 阅读
Hbase高级进阶系列(五)Hbase表设计之数据块编码 在前面我们介绍了数据块压缩,这里我们再介绍一个和数据块压缩配套使用的数据块编码。这个数据块编码是什么意思呢?其实就是每一个key会根据前 key 进行编码和压缩。这个编码选项( FAST_DIFF )让HBase只存... Rae /Hbase系列 /2023-11-29 /0 评论 /255 阅读
Hbase高级进阶系列(四)Hbase表设计之数据块压缩 在hbase的表里面,我们知道数据是以块的方式进行存储的,每一个块大小默认是64KB。但是这个块存储的数是默认没有压缩的。然后我们再回想一下,在hbase里面,每一列他存储的值其实都是特定的类型,那么如果我们对值进行... Rae /Hbase系列 /2023-11-29 /0 评论 /198 阅读
Hbase高级进阶系列(三)Hbase表设计之行键设计 在使用hbase做表的时候,表设计也是一个非常重要的概念,一个好的表设计可以为后期hbase的使用减少很多的麻烦。但是对于大多数企业来说,前期在设计表的时候,一般都是做简单的设计,随着后面业务的发展,此时整体表结构可... Rae /Hbase系列 /2023-11-29 /0 评论 /199 阅读