好久没写spark程序了,今天编写了一个spark程序,但是执行的时候报错了,提示:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/...

作者 Rae 发布的文章
在最近几年由于大数据的火爆,企业级的数据呈现爆炸式的增长,在整个大数据的发展过程中经历了大致3个阶段:第一个阶段,企业慢慢向大数据转型,出现了像hadoop这样的底层大数据存储,同时由于hadoop自带分布式计算框架...
在使用spark流处理的时候,我们会经常涉及到时间窗口函数,但是由于生产环境中消息队列或者其他的数据源他不总是及时到达这条数据,举个例子:有一条10点10分产生的数据,他被及时的放入到了kafka里面,但是由于消费者...
Spark案例介绍(六)spark structured streaming配合kafka实现滚动窗口数据统计
在生活中我们经常会遇到比如在每隔5分钟,统计用户的下单次数,每隔1分钟,统计下股票的涨跌数据等等,这种就是时间窗口相关的应用场景,在实际的工作中我们遇到的比比皆是,因此这篇文章我们主要给大家演示下使用spark st...
Spark案例介绍(五)使用spark structured streaming实现kafka的读写数据
这篇文章我们完整的演示一下,利用spark structured streaming编写spark的流处理,从kafka里面消费json,然后把json转换成对象,再利用spark sql进行查询或者join等,计算...
热文Spark系列(五十四)Spark Structured Streaming的sink介绍
在spark中,进行流处理的方式无外乎就是数据输入源,数据转换,数据写出这3个大的步骤,根据前面的文章知识点,这里的数据输入源在前面我们演示过了kafka,数据转换其实就是各种dataframe的操作,只有最后一个数...
Spark系列(五十三)Spark Structured Streaming对接kafka的配置参数
在上一个案例里面我们演示了使用spark structured streaming对接kafka的数据,但是在代码里面编写比较简单,这里我们完整的列举下使用到的kafka信息参数。一、必选参数:序号参数值说明1kaf...
Spark系列(五十二)Spark Structured Streaming介绍
在前面我们演示了spark streaming的介绍,同时我们也提到过在spark2.x的部分里面提供了全新的结构化流处理也就是这里的spark structured streaming。这两个都是spark的流处理...
Spark系列(五十一)Spark Streaming介绍
在spark中,除了提供批处理(前面的文章主要是基于批处理来介绍的),还提供有流处理的方法,也就是我们可以从消息队列等场景里面源源不断的获取数据回来进行处理,此时spark的应用程序就成为了一个常驻进程,只要有数据流...
Spark系列(五十)Spark sql应用程序调优涉及的参数信息
在前面的文章我们介绍了很多spark sql相关的内容,这篇文章列举下在使用spark sql编写应用程序的时候,会涉及到的一些调优参数。在实际开发中这些参数的设置根据实际的情况设定即可。序号参数默认值说明1spar...
Spark系列(四十九)Spark sql中join连接
在spark sql中,我们还会经常遇到join的使用。例如把两个表进行合并或者筛选结果等场景。在spark中使用join和在数据库中使用join差别不大。下面先介绍下spark sql中支持哪些join。序号类型描...
在使用sparksql的时候,除了系统内置的一些函数之外,我们还可以自定义UDF函数,然后在查询的时候使用这个UDF函数即可。整个UDF函数的流程如下:这个UDF其实就是一个方法,在使用的时候传入一个值然后返回一个新...
Spark系列(四十七)Spark sql中内置的聚合函数
我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍...
Spark系列(四十六)Spark sql中内置的标量函数
我们知道在spark sql中最主要的就是编写sql语句来处理数据,在使用mysql的时候,我们可以看到有很多内置函数,在spark中也同样可以兼容sql03标准的sql,所以这里也有很多的内置函数,本篇我们主要介绍...
Spark案例介绍(四)使用sparksql的方式实现单词计数
在前面我们基础内容介绍的比较多,这篇我们使用spark sql来实操一下某些场景业务。本篇介绍的是使用sparksql的方式实现单词计数,同时我们会演示使用dataframe和dataset两种方式来实现单词计数。下...