【博客593】k8s为pod进行cpu绑核以进一步提高性能

lulu的云原生笔记 2024-05-24 原文

k8s为pod进行cpu绑核以进一步提高性能

场景：

在k8s中，对于游戏训练等任务场景下，游戏worker模拟真实玩家时，性能对cpu依赖程度很高，此时如果对pod进行cpu绑核能够一定程度上再提高性能

配置步骤

1、驱逐节点:
kubectl drain <NODE_NAME>
2、停止 kubelet:
systemctl stop kubelet
3、修改 kubelet 参数:
–cpu-manager-policy=“static”
4、删除旧的 CPU 管理器状态文件:
rm var/lib/kubelet/cpu_manager_state
5、启动 kubelet
systemctl start kubelet

对需要更改其 CPU 管理器策略的每个节点重复此过程。跳过此过程将导致 kubelet crashlooping 并出现以下错误：

could not restore state from checkpoint: configured policy “static” differs from state checkpoint policy “none”, please drain this node and delete the CPU manager checkpoint file “/var/lib/kubelet/cpu_manager_state” before restarting Kubelet

cpu-manager-policy参数解析

cpu-manager-policy有两种策略：none和static

none 策略
none 策略显式地启用现有的默认 CPU 亲和方案，不提供操作系统调度器默认行为之外的亲和性策略。通过 CFS 配额来实现 Guaranteed Pods 和 Burstable Pods 的 CPU 使用限制。
static 策略
static 策略针对具有整数型 CPU requests 的 Guaranteed Pod，它允许该类 Pod 中的容器访问节点上的独占 CPU 资源。这种独占性是使用 cpuset cgroup 控制器来实现的。

注意

当启用 static 策略时，要求使用 --kube-reserved 和/或 --system-reserved 或 --reserved-cpus 来保证预留的 CPU 值大于零。这是因为零预留 CPU 值可能使得共享池变空。

使用规则：

可独占性 CPU 资源数量等于节点的 CPU 总量减去通过 kubelet --kube-reserved 或 --system-reserved 参数保留的 CPU 资源。从 1.17 版本开始，可以通过 kubelet --reserved-cpus 参数显式地指定 CPU 预留列表。由 --reserved-cpus 指定的显式 CPU 列表优先于由 --kube-reserved 和 --system-reserved 指定的 CPU 预留。通过这些参数预留的 CPU 是以整数方式，按物理核心 ID 升序从初始共享池获取的。共享池是 BestEffort 和 Burstable Pod 运行的 CPU 集合。 Guaranteed Pod 中的容器，如果声明了非整数值的 CPU requests，也将运行在共享池的 CPU 上。只有 Guaranteed Pod 中，指定了整数型 CPU requests 的容器，才会被分配独占 CPU 资源。

原因：

当 Guaranteed Pod 调度到节点上时，如果其容器符合静态分配要求，相应的 CPU 会被从共享池中移除，并放置到容器的 cpuset 中。因为这些容器所使用的 CPU 受到调度域本身的限制，所以不需要使用 CFS 配额来进行 CPU 的绑定。换言之，容器 cpuset 中的 CPU 数量与 Pod 规约中指定的整数型 CPU limit 相等。这种静态分配增强了 CPU 亲和性，减少了 CPU 密集的工作负载在节流时引起的上下文切换。

设置pod时要注意的点：

Pod的定义里都要设置request和limits，request和limits要一致。
对于要绑核的容器，request值必须是整数。

验证

1、确认非绑核

随便找一个可用的pod，确认目前非绑核状态：

docker ps 确认docker id
docker inspect查找 pid
taskset 查看cpu绑定情况

example：

# docker ps|grep demo
# docker inspect xxx|grep Pid
            "Pid": 123203,
            "PidMode": "",
            "PidsLimit": 0,
# taskset -c -p 123203
pid 123203's current affinity list: 0-71

2、绑核后验证效果

修改pod的yaml配置

          resources:
            limits:
              cpu: '4'
              ephemeral-storage: 40Gi
              memory: 8G
            requests:
              cpu: '4'
              ephemeral-storage: 40Gi
              memory: 8G

确认kubelet开启绑核后，pod 不需要重启，也会自动绑核

# docker ps|grep demo
# docker inspect xxx|grep Pid
            "Pid": 123203,
            "PidMode": "",
            "PidsLimit": 0,
# taskset -c -p 123203
pid 123203's current affinity list: 2,4,38,39

进一 593 xff0c xff xff0 kubernetes 容器云原生

有关【博客593】k8s为pod进行cpu绑核以进一步提高性能的更多相关文章

objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2
我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作，但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U
ruby - 使用 ruby-vips 的第一步 - 2
我正在尝试实现/转换daltonize将色盲人的图像校正为ruby的算法。在javascript中编写了两个主要的引用实现和python+我不熟悉的语言/环境中的其他实现。我几乎没有图像处理方面的经验，更不用说VIPS/ruby-vips了。我想知道如何迈出第一步。该文档似乎主要使用C/C++，而在ruby方面很少。它也非常详细。我什至不确定要使用哪些基本操作。看起来lin函数是一个很好的起点，但我不确定如何应用它。任何具有VIPS经验的人都可能在几分钟内算出整个算法。我想知道是否有人可以给我一些关于从哪里开始的指示。具体来说:如何访问单个(R/G/B)元素？是否有基于道尔顿化
ruby-on-rails - 负载测试期间 Unicorn CPU 使用率激增，优化方法 - 2
我对为我的RubyonRails3.1.3应用优化我的Unicorn设置的方法很感兴趣。我目前正在高CPU超大实例上生成14个工作进程，因为我的应用程序在负载测试期间似乎受CPU限制。在模拟负载测试中，每秒大约20个请求重放请求，我的实例上的所有8个内核都达到峰值，盒子负载飙升至7-8个。每个unicorn实例使用大约56-60%的CPU。我很好奇可以通过哪些方式对其进行优化？我希望能够每秒将更多请求汇集到这种大小的实例上。内存和所有其他I/O一样完全正常。在我的测试过程中，CPU越来越低。最佳答案如果您受CPU限制，您希望使用
ruby - Ruby 进程如何限制其 CPU 使用率？ - 2
假设我希望Ruby进程使用的CPU不超过15%。是否可以？怎么办？最佳答案您可以尝试使用Process.setrlimit来自标准核心:Setstheresourcelimitoftheprocess.这看起来只是setrlimit的包装器来自C库，因此它可能仅在Unix-ish平台上可用。setrlimit不支持CPU百分比限制，但它支持以秒为单位限制CPU时间。如果您只是想让您的Ruby进程不占用整个CPU，那么您可以尝试使用Process.setpriority来调整它的优先级。这只是libc的setpriority的包装
ruby - 在 Middleman 中移动博客文章位置 - 2
我正在为我的网站使用MiddlemanBloggem，但默认情况下，博客文章似乎需要位于/source中，这在查看vim中的树时并不是特别好并尝试在其中找到其他文件之一(例如模板)。通过查看文档，我看不出是否有任何方法可以移动博客文章，以便将它们存储在其他地方，例如blog_articles文件夹或类似文件夹。这可能吗？最佳答案将以下内容放入您的config.rb文件中。activate:blogdo|blog|blog.permalink=":year-:month-:day-:title.html"blog.sources=
k8s-污点 (Taint)和容忍 (Tolerations) - 2
文章目录一、污点（Taint）1、污点简介2、污点的组成3、污点的设置和去除二、容忍（Tolerations）1、容忍简介2、容忍的基本用法3、示例4、多污点与多容忍配置三、警戒(cordon)和转移(drain)四、Pod启动阶段（相位phase）五、故障排除步骤一、污点（Taint）节点亲和性，是Pod的一种属性（偏好或硬性要求），它使Pod被吸引到一类特定的节点Taint则相反，它使节点能够排斥一类特定的PodTaint和Toleration相互配合，可以用来避免Pod被分配到不合适的节点上。每个节点上都可以应用一个或多个taint，这表示对于那些不能容忍这些taint的Pod，是不会被
ruby-on-rails - 博客条目和评论的倒序显示，Ruby on Rails - 2
我是Rails的新手，所以在这里需要一些帮助。我已经按照几个教程创建了一个带有评论甚至一些AJAX花哨功能的博客，我被困在一些我希望很容易的事情上。博客和评论的默认显示是先列出最早的。我如何反转它以在顶部显示最新条目和最新评论。真的不知道这是Controller还是模型的功能。我已经做了一些定制，所以如果有帮助的话，这里是Controller.rb文件的代码。评论ControllerclassCommentsController帖子管理员classPostsController[:index,:show]#GET/posts#GET/posts.xmldefindex@posts=Po
ruby - Unicorn Rails - 在生产模式下启动时占用 100% CPU - 2
我们正在使用Unicorn_Rails+nginx。它在我的系统(4GBRam，Intel(R)Core(TM)2DuoCPUP8600@2.40GHz)的开发模式和生产模式下运行良好我能够在本地系统中启动10个worker，但在任何情况下都无法在生产中启动超过2个有时它可以工作，但需要等待15-20米启动unicorn_rails时一直占用99.6%的CPU英特尔(R)至强(R)CPUE5507@2.27GHz但它卡在亚马逊(m1.small实例)1.73GB内存我发现没有人在任何地方谈论使用unicorn_rails启动缓慢...... 最佳答案
ruby-on-rails - Rails、Minitest 和 Guard - 为什么 rb-fsevent 占用了超过 100% 的 CPU？ - 2
我在我的Rails应用程序中运行守卫，测试套件(最小的)最近停止正常工作。如果幸运的话，它会运行所有测试一次，也许两次。在那之后，即使是一个小的测试文件被更改也需要很长时间才能响应，以至于使用gem变得徒劳无功。在测试运行时跟随top，我可以看到有一个ruby进程持续占用了超过100%的CPU。即使所有测试都已运行并且我没有对文件进行任何更改。ruby进程是:/Users/Bodacious/.rvm/gems/ruby-2.0.0-p247@MyApp/gems/rb-fsevent-0.9.3/bin/fsevent_watch--latency0.1/Users/Bodaio
ruby - Sidekiq 可以利用多个 CPU 内核吗？ - 2
我是Sidekiq的新手，将它与AmazonEC2实例上的Ruby结合使用，以使用ImageMagick处理图像来完成一些工作。在运行它时，我意识到每个工作人员都在同一个核心上运行。我使用EC2c3.2xlarge机器，它们有8个内核。它显示CPU使用率为15%，但一个内核使用了100%，而其他内核使用了0%。Sidekiq可以为不同的worker使用不同的CPU内核吗？如果可以，这种低效率是由ImageMagic造成的吗？我怎样才能让它使用其他内核？最佳答案如果您想使用MRI使用多个内核，则需要启动多个Sidekiq进程；为您

【博客593】k8s为pod进行cpu绑核以进一步提高性能

k8s为pod进行cpu绑核以进一步提高性能

场景：

配置步骤

cpu-manager-policy参数解析

注意

验证

有关【博客593】k8s为pod进行cpu绑核以进一步提高性能的更多相关文章

随机推荐