Flink On Yarn Capacity Scheduler调度配置

淡淡的小番茄 2023-09-21 原文

背景

我们想将集群的机器打上标签，将不同的业务跑在不同的机器上，以应对不同级别客户的业务需求。

root

/ \

default perjob

Yarn调度方式

我们hadoop版本使用的是3.1.4。yarn的调度方式有三总：FIFOScheduler、CapacityScheduler、FairScheduler。一般常用的是后两种。之前没有使用标签的功能所以一直使用的FairScheduler，这个调度器比较简单。如果想用标签的话，只能使用CapacityScheduler调度器。

配置yarn-site.xml

<property>

<name>yarn.resourcemanager.scheduler.class</name>



<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>

</property>



<property>

<name>yarn.node-labels.enabled</name>

<value>true</value>

</property>



<property>

<name>yarn.node-labels.fs-store.root-dir</name>

<value>hdfs://node1:9900/yn/node-labels/</value>

</property>



<property>

<name>yarn.resourcemanager.scheduler.monitor.enable</name>

<value>true</value>

</property>



<property>

<name>yarn.resourcemanager.monitor.capacity.preemption.total_preemption_per_round</name>

<value>0.3</value>

</property>

配置capacity-scheduler.xml

这个调度器的配置实在是太多了，也是最复杂的一个调度器。官方的文档是非常详细的，但是想看懂你首先需要有个总体的了解。直接使用如下配置覆盖默认的capacity-scheduler.xml。

<configuration>

<property>

<name>yarn.scheduler.capacity.maximum-applications</name>

<value>10000</value>

<description>

Maximum number of applications that can be pending and running.

</description>

</property>

<property>

<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>

<value>0.1</value>

<description>

Maximum percent of resources in the cluster which can be used to run

application masters i.e. controls number of concurrent running

applications.

</description>

</property>

<property>

<name>yarn.scheduler.capacity.resource-calculator</name>

<value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value>

<description>

The ResourceCalculator implementation to be used to compare

Resources in the scheduler.

The default i.e. DefaultResourceCalculator only uses Memory while

DominantResourceCalculator uses dominant-resource to compare

multi-dimensional resources such as Memory, CPU etc.

</description>

</property>

<property>

<name>yarn.scheduler.capacity.root.queues</name>

<value>default,perjob</value>

<description>

The queues at the this level (root is the root queue).

</description>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.capacity</name>

<value>60</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.capacity</name>

<value>40</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.maximum-capacity</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.maximum-capacity</name>

<value>80</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.accessible-node-labels</name>

<value>SE</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.default-node-label-expression</name>

<value>SE</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.accessible-node-labels</name>

<value>AP</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.default-node-label-expression</name>

<value>AP</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.accessible-node-labels.SE.capacity</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.accessible-node-labels.SE.capacity</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.accessible-node-labels.AP.capacity</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.accessible-node-labels.AP.capacity</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.user-limit-factor</name>

<value>5</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.user-limit-factor</name>

<value>5</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.default.default-application-priority</name>

<value>10</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.perjob.default-application-priority</name>

<value>100</value>

</property>

<property>

<name>yarn.scheduler.capacity.root.leaf-queue-template.ordering-policy</name>

<value>fair</value>

</property>

</configuration>

配置标签

新建SE、AP两个标签
yarn rmadmin -addToClusterNodeLabels "SE,AP";

将机器打上标签

yarn rmadmin -replaceLabelsOnNode "node1=SE node2=AP node3=AP";

属性配置

yarn rmadmin -refreshQueues

结论和总结

配置的成功之前，遇到个比较棘手的问题：就是提交flink任务的时候，任务一直处于ACCEPTED状态，查看yarn rm日志为看到相关异常。那么如何查看调度的异常信息的呢，我也是无意间发现，在控制台Scheduler菜单页面，可以Dump scheduler logs。

点击后会在hadoop日志目录下生成yarn-capacity-scheduler-debug.log。

2021-09-02 15:29:18,687 DEBUG org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.ParentQueue: Trying to assign containers to child-queue of root

2021-09-02 15:29:18,687 DEBUG org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.AbstractCSQueue: Failed to assign to queue: root nodePatrition: AP, usedResources: <memory:0, vCores:0>, clusterResources: <memory:110592, vCores:96>, reservedResources: <memory:0, vCores:0>, maxLimitCapacity: <memory:0, vCores:0>, currTotalUsed:<memory:0, vCores:0>

结合github上的源码，找到AbstractCSQueue，很容易定位到打日志的代码行：

可以看出来很多参数都是默认的值0，导致无法分配资源。我是因为没有配置yarn.scheduler.capacity.<queue-path>.accessible-node-labels.<label>.capacity，导致一直分配不了资源。此配置项默认值是0，官方文档上有详细的说明：

配置好后，通过yarn rmadmin -refreshQueues来刷新capacity-scheduler.xml的配置信息。

正常的yarn-capacity-scheduler-debug.log如下：

2021-09-03 08:04:54,261 DEBUG org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.UsersManager: User limit computation for deployer, in queue: perjob, userLimitPercent=100, userLimitFactor=5.0, required=<memory:512, vCores:1>, consumed=<memory:0, vCores:0>, user-limit-resource=<memory:512, vCores:1>, queueCapacity=<memory:512, vCores:1>, qconsumed=<memory:0, vCores:0>, currentCapacity=<memory:512, vCores:1>, activeUsers=0.0, clusterCapacity=<memory:51200, vCores:32>, resourceByLabel=<memory:51200, vCores:32>, usageratio=0.0, Partition=SE, resourceUsed=<memory:512, vCores:1>, maxUserLimit=<memory:2560, vCores:5>, userWeight=1.0

至此终于将Capacity Scheduler调度配置完成。断断续续的看了两天了，还是挺不容易的。周末给自己加个鸡腿，犒劳下自己。

Scheduler Capacity gt lt property

有关Flink On Yarn Capacity Scheduler调度配置的更多相关文章

ruby-on-rails - 独立 ruby 脚本的配置文件 - 2
我有一个在Linux服务器上运行的ruby脚本。它不使用rails或任何东西。它基本上是一个命令行ruby脚本，可以像这样传递参数:./ruby_script.rbarg1arg2如何将参数抽象到配置文件(例如yaml文件或其他文件)中？您能否举例说明如何做到这一点？提前谢谢你。最佳答案首先，您可以运行一个写入YAML配置文件的独立脚本:require"yaml"File.write("path_to_yaml_file",[arg1,arg2].to_yaml)然后，在您的应用中阅读它:require"yaml"arg
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2
之前在培训新生的时候，windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表，但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题)，加之暑假之后对cmake实在是爱不释手，且这样配置确实十分简单(其实都不需要配置)，故斗胆妄言vscode下配置CV之法。其实极为简单，图比较多所以很长。如果你看此文还配不好，你应该思考一下是不是自己的问题。闲话少说，直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么，我不说是谁。CMake是一个开源免费并且跨平台的构建工具，可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m
神州数码无线产品（AC+AP）配置 - 2
注意：本文主要掌握DCN自研无线产品的基本配置方法和注意事项，能够进行一般的项目实施、调试与运维AP基本配置命令AP登录用户名和密码均为：adminAP默认IP地址为：192.168.1.10AP默认情况下DHCP开启AP静态地址配置：setmanagementstatic-ip192.168.10.1AP开启/关闭DHCP功能：setmanagementdhcp-statusup/downAP设置默认网关：setstatic-ip-routegeteway192.168.10.254查看AP基本信息：getsystemgetmanagementgetmanaged-apgetrouteAP配
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
Ruby 默认将 IRB 配置为 Pretty_Inspect - 2
我是ruby的新手，正在配置IRB。我喜欢pretty-print(需要'pp')，但总是输入pp来漂亮地打印它似乎很麻烦。我想做的是默认情况下让它漂亮地打印出来，所以如果我有一个var，比如说，'myvar'，然后键入myvar，它会自动调用pretty_inspect而不是常规检查。我从哪里开始？理想情况下，我将能够向我的.irbrc文件添加一个自动调用的方法。有什么想法吗？谢谢! 最佳答案 irb中默认pretty-print对象正是hirb被迫去做。Theseposts解释hirb如何将几乎所有内容转换为ascii表。虽
ruby - 是否可以将 IRB 提示配置为动态更改？ - 2
我想在IRB中浏览文件系统并让提示更改以反射(reflect)当前工作目录，但我不知道如何在每个命令后进行提示更新。最终，我想在日常工作中更多地使用IRB，让bash溜走。我在我的.irbrc中试过这个:require'fileutils'includeFileUtilsIRB.conf[:PROMPT][:CUSTOM]={:PROMPT_N=>"\e[1m:\e[m",:PROMPT_I=>"\e[1m#{pwd}>\e[m",:PROMPT_S=>"FOO",:PROMPT_C=>"\e[1m#{pwd}>\e[m",:RETURN=>""}IRB.conf[:PROMPT_MO
ruby - 如何配置 Ruby Mechanize 代理以通过 Charles Web 代理工作？ - 2
我正在使用Ruby/Mechanize编写一个“自动填写表格”应用程序。它几乎可以工作。我可以使用精彩CharlesWeb代理以查看服务器和我的Firefox浏览器之间的交换。现在我想使用Charles查看服务器和我的应用程序之间的交换。Charles在端口8888上代理。假设服务器位于https://my.host.com。.一件不起作用的事情是:@agent||=Mechanize.newdo|agent|agent.set_proxy("my.host.com",8888)end这会导致Net::HTTP::Persistent::Error:...lib/net/http/pe
ruby-on-rails - 如果特定语言环境中缺少翻译，如何配置 i18n 以使用 en 语言环境？ - 2
如果特定语言环境中缺少翻译，如何配置i18n以使用en语言环境翻译？当前已插入翻译缺失消息。我正在使用RoR3.1。最佳答案找到相似的question这里是答案:#application.rb#railswillfallbacktoconfig.i18n.default_localetranslationconfig.i18n.fallbacks=true#railswillfallbacktoen,nomatterwhatissetasconfig.i18n.default_localeconfig.i18n.fallback
ruby-on-rails - 在 Rails 中存储(结构化)配置数据的位置 - 2
对于我正在编写的Rails3应用程序，我正在考虑从本地文件系统上的XML、YAML或JSON文件中读取一些配置数据。重点是:我应该把这些文件放在哪里？Rails应用程序中是否有用于存储此类内容的默认位置？附带说明一下，我的应用程序部署在Heroku上。最佳答案我经常做的是:如果文件是通用配置文件:我在目录/config中创建一个YAML文件，每个环境有一个上层key如果我为每个环境(大项目)创建一个文件:我为每个环境创建一个YAML并将它们存储在/config/environments/然后我在加载YAML的地方创建了一个初始化