博客 Yarn概述

Yarn概述

   数栈君   发表于 2023-07-07 11:16  199  0

Yarn是Hadoop的分布式资源调度平台,负责为集群的运算提供运算资源。如果把分布式计算机和单个计算机相对应的话,HDFS就相当于计算机的文件系统,Yarn就是计算机的操作系统,MapReduce就是计算机上的应用程序。

Yarn的基本组成

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c14d0023badebfc09b51b3712896c99d..jpg

Yarn主要由三个组件组成。

  • ResourceManager:他是整个集群资源的老大,负责整个集群系统的资源分配与调度。
  • NodeManager:他是单个节点的老大,管理本节点的用户作业和工作流。
  • ApplicationMaster:他是单个应用程序的老大,负责单个应用的监控运行。

除了这三个组件,首先要说明一个不得不提的概念:Container

Container

在Yarn中,Container代表着Yarn对计算机资源的抽象,每个容器内包含了CPU、内存、磁盘等运算资源。所有的应用都会运行在Container中,应用向ResourceManager申请Container后运行ApplicationMaster,再根据任务向ResourceManager申请拿到任务下Task的Container。

ResourceManager

ResourceManager是整个集群资源的老大,负责整个集群的资源调度,他与每个节点上的NodeManager和每一个应用程序上的ApplicationMaster协调工作。他的主要职责是调度系统中所需的各种可用资源,着眼于应用程序之间的资源调度,并不会关注每个应用程序的状态管理。

ResouceManager主要有两个组件:Scheduler和ApplicationManager。

Scheduler

是一个资源调度器,负责各个运行中的应用的资源分配。和他的名字一样,他只负责给应用分配资源,即Container,不会关心或监控应用程序的具体状态。同样他也不能去重启各种运行失败的应用。对于多个客户端的应用资源请求,Scheduler会将这些作业放在一个或者多个作业队列中,并按照设置的调度方法分配Container。在Hadoop的MapReduce中主要有三种调度方法:FIFO Scheduler、Capacity Scheduler和Fair Scheduler。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5ce86c1f09a8ead4f8d0935821543619..jpg

FIFO Scheduler:单个队列,先进先出,一般生产环境不使用。
Capacity Scheduler:容量调度器。创建多个队列,为每个队列设置最小资源和最大资源,针对不同的任务队列,可以设置不同的资源权重。队列之间可以互相借用资源,单个队列内采用FIFO原则。适合低负载的情况。
Fair Scheduler:公平调度器。为每个任务公平地动态调整资源,保证资源公平分配,若在分配途中有新的任务加入,则在一定的时间内(并不是立刻,因为需要等待前面的任务释放占用的Container)调整所有任务的所得资源,使得每个作业最终得到相同的资源。

ApplicationManager

ApplicationManager主要负责接收job的提交请求,为应用分配第一个Container来运行ApplicationMaster,还有就是负责监控ApplicationMaster,在遇到失败时重启ApplicationMaster运行的Container。

NodeManager

NodeManager负责单个节点的老大,每个节点都有自己的NodeManager。NodeManager是一个slave服务:它负责接收ResourceManager的资源分配请求,分配具体的Container给应用。同时,它还负责监控并报告Container使用信息给ResourceManager。通过和ResourceManager配合,NodeManager负责整个Hadoop集群中的资源分配工作。ResourceManager是一个全局的进程,而NodeManager只是每个节点上的进程,管理这个节点上的资源分配和监控运行节点的健康状态。

NodeManager的主要职责如下:

  • 接收ResourceManager的请求,分配Container给应用的某个任务
  • 和ResourceManager交换信息以确保整个集群平稳运行。ResourceManager就是通过收集每个NodeManager的报告信息来追踪整个集群健康状态的,而NodeManager负责监控自身的健康状态。
  • 管理每个Container的生命周期
  • 管理每个节点上的日志
  • 执行Yarn上面应用的一些额外的服务,比如MapReduce的shuffle过程

当一个节点启动时,它会向ResourceManager进行注册并告知ResourceManager自己有多少资源可用。在运行期,通过NodeManager和ResourceManager协同工作,这些信息会不断被更新并保障整个集群发挥出最佳状态。

NodeManager只负责管理自身的Container,它并不知道运行在它上面应用的信息。负责管理应用信息的组件是ApplicationMaster。

ApplicationMaster

ApplicationMaster是单个应用程序的老大,向ResourceManager申请资源并和NodeManager协同工作来运行应用的各个任务,然后跟踪它们状态及监控各个任务的执行,遇到失败的任务还负责重启它。

当一个ApplicationMaster启动后,会周期性的向ResourceManager发送心跳报告来确认其健康和所需的资源情况,在建好的需求模型中,ApplicationMaster在发往ResourceManager中的心跳信息中封装偏好和限制。在随后的心跳中,ApplicationMaster会对收到集群中特定节点上绑定了一定的资源的container的租约,根据ResourceManager发来的container,ApplicationMaster可以更新它的执行计划以适应资源不足或者过剩,Container可以动态的分配和释放资源。

Yarn工作机制

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/22e8451ec9ca5ae5b59a1891d4c8baff..jpg

  1. 客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例。
  2. ResourceManager找到可以运行一个Container的NodeManager,并在这个Container中启动ApplicationMaster实例。
  3. ApplicationMaster向ResourceManager进行注册,注册之后客户端就可以查询ResourceManager获得自己ApplicationMaster的详细信息,以后就可以和自己的ApplicationMaster直接交互了。
  4. 在平常的操作过程中,ApplicationMaster根据resource-request协议向ResourceManager发送resource-request请求。
  5. 当Container被成功分配之后,ApplicationMaster通过向NodeManager发送container-launch-specification信息来启动Container,container-launch-specification信息包含了能够让Container和ApplicationMaster交流所需要的资料。
  6. 应用程序的代码在启动的Container中运行,并把运行的进度、状态等信息通过application-specific协议发送给ApplicationMaster。
  7. 在应用程序运行期间,提交应用的客户端主动和ApplicationMaster交流获得应用的运行状态、进度更新等信息,交流的协议也是application-specific协议。
  8. 一但应用程序执行完成并且所有相关工作也已经完成,ApplicationMaster向ResourceManager取消注册然后关闭,用到所有的Container也归还给系统。

Resource Request和Container

Yarn的设计目标就是允许我们的各种应用以共享、安全、多租户的形式使用整个集群。并且,为了保证集群资源调度和数据访问的高效性,Yarn还必须能够感知整个集群拓扑结构。为了实现这些目标,ResourceManager的调度器Scheduler为应用程序的资源请求定义了一些灵活的协议,通过它就可以对运行在集群中的各个应用做更好的调度,因此,这就诞生了Resource Request和Container。

具体来讲,一个应用先向ApplicationMaster发送一个满足自己需求的资源请求,然后ApplicationMaster把这个资源请求以resource-request的形式发送给ResourceManager的Scheduler,Scheduler再在这个原始的resource-request中返回分配到的资源描述Container。每个ResourceRequest可看做一个可序列化Java对象,包含的字段信息如下:

<resource-name, priority, resource-requirement, number-of-containers>
  • 1
  • resource-name:资源名称,现阶段指的是资源所在的host和rack,后期可能还会支持虚拟机或者更复杂的网络结构
  • priority:资源的优先级 resource-requirement:资源的具体需求,现阶段指内存和cpu需求的数量
  • number-of-containers:满足需求的Container的集合

number-of-containers中的Containers就是ResourceManager给ApplicationMaster分配资源的结果。Container就是授权给应用程序可以使用某个节点机器上CPU和内存的数量。

ApplicationMaster在得到这些Containers后,还需要与分配Container所在机器上的NodeManager交互来启动Container并运行相关任务。当然Container的分配是需要认证的,以防止ApplicationMaster自己去请求集群资源。


免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack

0条评论
上一篇:Hive的表操作1
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群