首先我们上一张spark的技术栈框架图

结合上面的图,这篇文章我们主要介绍spark的sparkR技术栈。
我们知道,在数据分析的场景里面,很多都是使用python或者R语言的,因此基于python和R语言有很多开源库供我们使用,在spark中,这里的SparkR模块就是在spark里面提供R库及模型调用的能力。这样可以让我们不需要对R语言做太多的了解,即可实现调用R语言的模型或者库的能力以达到实现机器学习算法的能力。
备注:
1、在前面有spark mllib,但是mllib提供的库和模型不是太多,作为补充才有的sparkR。
2、R在数据分析领域适用面非常广泛。
对于你喜欢的事想去做的事,你必须付出百分之一千的努力你知道这一路可能会有很多困难,会有坚持不下去想要放弃的时候也有时候,你不一定会得到你想要的结果,但你—定要相信。
-- 展开阅读全文 --
还没有评论,来说两句吧...