Apache Druid系列(八)Druid更新数据说明 在druid中不支持更新数据的,如果要涉及到更新数据,则只能使用重新导入数据的方式进行覆盖。所以总体的思路如下:准备一份需要更新的完整数据,例如原始数据是:{"age":40,"birthday":"2019-08-... Rae大数据2024-02-02987 阅读0 评论
热文Apache Druid系列(七)Druid导入kafka的数据 上文《Apache Druid系列(六)Druid导入本地数据》我们演示了导入本地文件这种有界流的数据,本文的话我们介绍下导入无界流的数据,主要的演示对象是直接导入kafka的数据。下面直接开始1)编写一个kafka... Rae大数据2024-02-021040 阅读0 评论
热文Apache Druid系列(六)Druid导入本地数据 上文《Apache Druid系列(五)Druid导入数据介绍》我们介绍了Druid导入数据的方式,本文我们就来介绍下直接使用Druid导入本地数据的案例。下面直接开始。1)创建测试数据这里创建测试数据的话,我们编写... Rae大数据2024-02-021049 阅读0 评论
Apache Druid系列(五)Druid导入数据介绍 正常的业务场景中,我们是需要把数据导入到Druid里面去的。所以本文我们介绍下Druid导入数据的方式。目前Druid导入数据的方式主要有2种,分别是:有界流导入和无界流导入。 这两种很多区分,就是每次导入的数据是否... Rae大数据2024-02-02985 阅读0 评论
Apache Druid系列(四)Druid架构说明 上文《Apache Druid系列(三)Druid伪集群方式安装》我们演示了Druid集群的安装部署,本文我们来介绍下Druid的部署架构组件信息。整个Druid集群主要由3部分角色组成,分别是:master节点,q... Rae大数据2024-02-02863 阅读0 评论
Apache Druid系列(三)Druid伪集群方式安装 本文我们来演示下Druid伪集群的安装。前置说明在部署安装druid的时候,一般我们还是建议使用集群的方式进行安装,这样可以做到存算分离,在druid进行安装的时候从大体上主要分为3类节点,分别是:1、master节... Rae大数据2024-02-02862 阅读0 评论
Apache Druid系列(二)Druid数据存储介绍 上文《Apache Druid系列(一)Druid介绍》我们对Druid做了简单的介绍,本文的话我们介绍下Druid的数据存储。在Druid中数据存储主要是列式存储,底层的存储示例图如下:上图简要的描述了Druid底... Rae大数据2024-02-02690 阅读0 评论
热文Apache Druid系列(一)Druid介绍 Apache Druid是一个分布式的,支持多维度实时在线OLAP分析的大数据处理系统。在部分的企业里面,关于大数据实时查询分析的场景里面都有用到这里的Apache Druid。所以这里我们写一个系列的文章,简单的介... Rae大数据2024-02-011070 阅读0 评论
热文数据湖系列(二十六)Flink sql近实时写入iceberg 前面我们介绍了使用spark近实时写把kafka的数据写入iceberg,本文的话,我们使用flink sql的形式来把kafka的数据近实时写入到iceberg里面去。在flink中,这种写入其实主要是依赖于kaf... Rae数据仓库2024-01-311505 阅读0 评论
热文数据湖系列(二十五)Flink sql操作iceberg数据 前面我们演示了使用spark操作iceberg的数据,接着我们就来演示下flink操作iceberg数据。flink操作iceberg数据的形式主要有两种,分别是:1、datastream 2、flink sql现如... Rae数据仓库2024-01-311198 阅读0 评论
热文数据湖系列(二十四)Spark Structured Streaming近实时写入iceberg(JSON版本) 上文《数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本)》我们介绍了从kafka里面接收分隔符版本的示例数据,然后把数据写入到iceberg里面。但是由于分... Rae数据仓库2024-01-311089 阅读0 评论
使用scala编写kafka的生产者和消费者案例 最近在演示spark相关的内容,所以这里单独出一个案例,使用scala编写一个kafka的生产者和消费者的代码案例,直接上代码:生产者代码示例:package com.kafka.producer import co... Rae消息中间件2024-01-29981 阅读0 评论
热文 数据湖系列(二十三)Spark Structured Streaming近实时写入iceberg(分隔符版本) 前面我们演示了spark写入iceberg数据的问题,这里的话我们进入实战的阶段。在实际的过程中,我们经常会涉及到实时流的方式把数据写入到iceberg的需求,整体流程如下:这里我们使用spark的方式来演示下这里的... Rae数据仓库2024-01-251208 阅读0 评论
热文数据湖系列(二十二)Spark操作iceberg数据(hive插入数据) 上文《数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据)》我们演示了使用spark直接向hdfs写入iceberg数据的案例,本文我们再来演示spark直接向hive写入iceberg数据的案例... Rae数据仓库2024-01-251300 阅读0 评论
热文数据湖系列(二十一)Spark操作iceberg数据(hdfs插入数据) 上文《数据湖系列(二十)Iceberg+hive整合外部表使用案例》我们介绍了直接使用hive对于Iceberg的操作,本文的话我们来演示下使用Spark对Iceberg的操作。对于spark操作Iceberg来说,... Rae数据仓库2024-01-251270 阅读0 评论