热文大数据实战系列(二)Spark 实现读取hive数据写入doris
上文《大数据实战系列(一)Spark 实现读取doris数据写入hive》我们实现了使用spark读取doris数据然后写入hive,这里的话我们来实现读取hive数据,写入doris。直接上代码: val spar...
上文《大数据实战系列(一)Spark 实现读取doris数据写入hive》我们实现了使用spark读取doris数据然后写入hive,这里的话我们来实现读取hive数据,写入doris。直接上代码: val spar...
这个系列的话我们主要是记录一些实战的代码,方便大家在使用的时候实现直接照抄即可。本文主要介绍的是使用Spark实现读取doris数据并且写入hive的案例,直接上代码://初始化spark env val spark...
上文《数仓架构构建实战思路(三)任务评估很重要》我们已经评估了任务和数据规模,当我们掌握这些信息之后,接下来就可以评估服务器集群规划了。也就是可以进入到采购阶段了。对于做数仓来说,一般如果是小公司的话,我们还是建议使...
上文《数仓架构构建实战思路(二)数据测算很重要》我们对数据进行了测算,接下来就要对任务进行评估了。在数仓的建设中,任务评估也是一个非常重要的是,所有的任务无外乎以下几种:1、定时任务 2、批处理任务 3、流处理任务 ...
上文《数仓架构构建实战思路(一)熟悉业务很重要》我们介绍了前期熟悉业务。这里的话我们就进入到数仓的实施阶段。既然要做数仓,那么说明产品相关的设计已经完成了。那么接下来我们就从0构建1个数仓,挨个来介绍数仓的建设思路。...
最近又有时间了,所以准备更新一些实际在工作中会涉及到的一部分。目前主要是做学校相关的项目,我们的项目相对来说是属于ToB的,因此我们这边主要是面向学校做解决方案。那么基于学校的各种应用场景,我们会涉及到多套系统(目前...
最近负责的一个项目上线,运行一段时间后发现对应的进程竟然占用了700%的CPU,导致公司的物理服务器都不堪重负,频繁宕机。那么,针对这类java进程CPU飙升的问题,我们一般要怎么去定位解决呢?、采用top命令定位进...
陈某提示:以下案例,来自互联网。大家参考一下,准备一个自己的案例。本问题亲身经历过。之前开发同事编写的SQL语句,就导致过线上CPU过高,MySQL的CPU使用率达到900%+,通过优化最后降低到70%~80%。下面...
上文《Flink CDC实战系列(二)Flink cdc 把mysql数据写入到kafka》我们已经介绍了使用flink cdc把数据从mysql写入到kafka。本文的话我们介绍下使用flink cdc把数据从my...
上文《Flink CDC实战系列(一)Flink cdc 把mysql数据写入到elasticsearch》我们已经介绍了使用flink cdc把数据从mysql写入到elasticsearch。本文的话我们介绍下使...
最近Dinky1.0版本发布了,在这里详细记录下对应的踩坑之路。本文档会进行长期持续的更新。1)jdk问题这里我服务器安装的jdk的版本,但是启动的时候报错了,提示:Unrecognized VM option 'P...
目前做数据仓库相关的工作中,我们涉及到大量的使用flink cdc把数据同步到各个数据环境中。所以基于此我们来编写一个常见的flink cdc使用示例,方便大家在使用的时候直接开箱即用即可。本文我们主要介绍的是使用f...
在面对ToC场景的时候,由于用户基数大,所以对于我们来说,在系统设计阶段会有专门针对用户id的相关设计。此时我们可能会考虑的场景如下:1、系统是否需要做大还是仅满足小众场景 2、用户的并发是否高 3、系统中业务对应是...
在日常开发过程中,大家使用的开发IDE工具可能都不一样,有的人使用eclipse,有的人使用idea,同时由于编写代码风格不一致,所以当出现codeview的时候我们经常会重新格式化代码风格。如果在重新格式化代码风格...
前言在应用开发的早期,数据量少,开发人员开发功能时更重视功能上的实现,随着生产数据的增长,很多 SQL 语句开始暴露出性能问题,对生产的影响也越来越大,有时可能这些有问题的 SQL 就是整个系统性能的瓶颈。SQL 优...