spark从本质上来说算是一个分布式系统,因此我们经常听说spark集群这个词,在整个spark中,有自己的资源管理系统,当然也可以使用外部的资源管理系统例如:apache yarn或者是apache mesos系统。本篇文章我们主要介绍的是spark自身的资源管理系统。
在spark的资源管理系内部有两个大的组件,分别是:
1、集群管理器(cluster manager) 2、工作节点(worker)
整个工作模式可以看作是主从的架构,即 master-slave的架构。其中集群管理器充当主节点,工作节点充当从节点。
集群管理器(master)的主要作用有:
1、管理维护worker节点的状态 2、维护wordker节点的ip、内存、cpu等资源信息 3、根据worker节点的可用性及容量信息,为他们分配task
工作节点(work)的主要作用有:
1、向集群管理器上报自己的ip,内存,cpu等资源信息。 2、接收集群管理器分配的任务并且执行
备注:
1、在spark中,一般我们可以单独搭建集群,由spark自身的master-slave架构进行整合集群资源。
2、生产环境上一般我们会使用apache yarn进行资源的管理。
还没有评论,来说两句吧...