首先我们上一张spark的技术栈框架图
结合上面的图,这篇文章我们主要介绍spark的sparkR技术栈。
我们知道,在数据分析的场景里面,很多都是使用python或者R语言的,因此基于python和R语言有很多开源库供我们使用,在spark中,这里的SparkR模块就是在spark里面提供R库及模型调用的能力。这样可以让我们不需要对R语言做太多的了解,即可实现调用R语言的模型或者库的能力以达到实现机器学习算法的能力。
备注:
1、在前面有spark mllib,但是mllib提供的库和模型不是太多,作为补充才有的sparkR。
2、R在数据分析领域适用面非常广泛。
我从清晨走过,也拥抱夜晚的星辰,人生没有捷径,你我皆平凡,你好,陌生人,一起共勉。
-- 展开阅读全文 --
还没有评论,来说两句吧...