热文Flume日志采集系列(一)把数据采集到hdfs上
Flume在现在的大数据采集方面使用范围非常的广。所以这个工具也得学会使用,这篇文章介绍下把日志采集到hdfs,然后供数仓进行数据分析。下面直接来演示一下。一、准备一个hadoop环境如果想要把日志文件的数据采集到h...
Flume在现在的大数据采集方面使用范围非常的广。所以这个工具也得学会使用,这篇文章介绍下把日志采集到hdfs,然后供数仓进行数据分析。下面直接来演示一下。一、准备一个hadoop环境如果想要把日志文件的数据采集到h...
相信刚进入到编程学习的同学,在基础部分一定会涉及到排序相关的内容,那么归并排序也是最常接触到的。时间多年,像这些算法在工作中对于我本人来说使用比较少,但是最近在复盘的阶段,所以想起这个事情了,在此做一个记录。这篇文章...
相信刚进入到编程学习的同学,在基础部分一定会涉及到排序相关的内容,那么快速排序也是最常接触到的。时间多年,像这些算法在工作中对于我本人来说使用比较少,但是最近在复盘的阶段,所以想起这个事情了,在此做一个记录。这篇文章...
相信刚进入到编程学习的同学,在基础部分一定会涉及到排序相关的内容,那么冒泡排序也是最先接触到的。时间多年,像这些算法在工作中对于我本人来说使用比较少,但是最近在复盘的阶段,所以想起这个事情了,在此做一个记录。这篇文章...
在前面我们介绍了Filestorage是一个成熟的开源框架,依靠他能很简单的经过配置就能完成文件上传的功能,因此这篇文章我们再演示下使用FileStorage实现FTP文件上传的功能。下面直接演示:一、创建一个mav...
在项目中,我们有很多种文件上传场景,例如客户业务的文件上传是上传到FTP,阿里云服务器的业务是上传到minio等等,最近看到一个开源的项目,可以很方便的实现文件的上传。所以在此做两篇记录,本文记录的主要是使用file...
java开发的时候,我们经常会遇到接口幂等性的要求。相信大家都能耳熟能详介绍几种接口幂等性的方案。但是很多同学在介绍这些方案的时候确不是能完全的介绍清楚,导致一些错漏百出。这篇文章我们就来详细的介绍下java中实现接...
在使用VisualVM调优的时候,我们肯定是会观察GC的使用情况的,在这个可视化工具里面,可视化查看GC是由插件来完成的,这里安装的插件就是Visual GC插件。安装方法是:1、点击进入到VisualVM的主页2、...
做java的同学经常会遇到性能调优的情况,例如线上的内存oom了,线上的程序突然假死没反应了等等。所以作为java开发的同学对于性能优化是一个必掌握的知识点,因此这批文章我们介绍一个可以用来做java性能可视化分析的...
在数据湖的解决方案里面,Delta Lake和Apache Hudi是目前非常火爆的两种数据湖的解决方案,前面我们介绍了Delta Lake,这篇文章我们介绍下Apache Hudi。Apache Hudi 摄取并管...
在前面我们介绍过操作Delta Lake数据湖的时候,就像nosql一样,所有的操作都是追加操作而不是直接修改。因此基于上诉的原理,那么在Delta Lake内部肯定是维护了每一次修改的版本号,我们查询的时候默认是查...
在spark中,目前使用比较强大的就是spark structured streaming,这是在日常工作中经常见到的场景。这篇文章我们介绍下使用流的方式读Delta Lake数据和写Delta Lake数据。一、从...
在前面我们介绍了Delta Lake的安装,这篇文章我们介绍下数据湖的操作API,即ACID。一、写入数据到Delta Lake把数据写入到Delta Lake中很简单,因为Delta Lake强依赖spark,同时...
前面我们介绍了delta lake,这篇文章我们来介绍下delta lake的安装使用。在核心上delta lake运行时离不开spark的,虽然他同时支持spark和presto,但是有同学可能问,我如果使用pre...
在前面我们大致的介绍了数据湖,并且列举了几个比较常用的数据湖解决方案。这篇文章我们介绍下当下比较流行的数据湖解决方案之一Delta Lake。先来看看Delta Lake的整体架构:Delta Lake是Spark的...