首先我们上一张spark的技术栈框架图
结合上面的图,这篇文章我们主要介绍spark的spark mllib技术栈。
这是一个在spark之上构建的机器学习库,也就是我们可以利用spark做机器学习,算法实现等应用。
在spark的mllib模块中,它提供了执行各种分析统计的必要功能,例如相关性、抽样、假设检验等,该组建还提供了常用的很多算法的实现,例如:分类、回归、聚类及协同过滤等算法。
在spark的mllib模块中,所有的算法算子在spark第一代(spark0.8到spark2.0之间的版本)里面操作也是按照rdd的模型进行数据处理的。在spark第二代(spark2.0版本之后)里面操作的是按照dataframe的模型进行数据处理的。
备注:
1、由于个人使用spark mllib的模块较少(工作中接触不到这种场景,也没有相关同时可以进行交流),所以这个模块我们介绍会比较少,后面几乎也不会变关于mllib相关的文章(除非有相关的工作场景)
2、spark的mllib模块降低了普通的开发人员有了学习算法和机器学习方面的入门门槛。让机器学习,人工智能不再高深和神秘。
还没有评论,来说两句吧...