jjzjj

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

座右铭 2023-04-17 原文

大家好,我是陶朱公Boy。

背景

今天跟大家分享一个前几天在线上碰到的一个GC故障— "CMSGC太频繁"。

不知道大家看到这条告警内容后,是什么感触?我当时是一脸懵逼的,一万个为什么萦绕心头。

什么是CmsGc?CmsGc太频繁又是什么意思?什么情况下会触发CMSGC太频繁这种告警?要怎么样去找到那个被频繁创建的对象?最后又需要怎么规避?

接下来这篇文章我会来回答一下:什么是CMSGC太频繁;整个排查过程与你分享;最后我们一起探讨一下一些规避手段。

什么是CMSGC太频繁

首先我觉得还是有必要解释清楚什么是CMSGC太频繁这个术语,相信不少小伙伴也是比较关心的。

如果你听过垃圾搜集器中有一款名为CMS垃圾搜集器,那就好理解了,所谓的CMSGC太频繁意思是说CMS垃圾搜集器在当下时间窗口垃圾收集的动作频次太快(平时老半天才回收一次或几次垃圾对象,现在可能一分钟就需要回收多次),大致就是这个意思。

关于CMS垃圾收集器的说明:

上述这张图中共有7种不同的垃圾搜集器,用连线表示它们彼此之间的搭配使用。
分割线上面部分是年轻代区域,像Serial、ParNew、Parallel Scavenge这三款垃圾收集器是用来搜集年轻代内存区域的垃圾收集器。
分割线下面部分是老年代区域,像CMS、Serial Old、Parallel Old这三款垃圾收集器用来收集老年代区域的垃圾收集器。
在实际线上配置场景中,我们一般通过CMS+ParNew,采用分代收集(parNew垃圾收集器用来收集年轻代区域,Cms垃圾收集器用来收集老年代区域)来进行配置。

所以说CMS垃圾收集器是一款作用于老年代区域的垃圾收集器。

关于CMS+ParNew垃圾搜集器的配置说明:大家如果在VM启动配置参数中做如下配置:-XX:+UseConcMarkSweepGC.该配置项首先是激活CMS收集器(作用于老年代)。之后-XX:UseParNewGC会自动开启,意味着年轻代将使用多线程并行垃圾收集器parNew进行回收。

 

原因分析

上文中,我给大家解释了CMSGC太频繁的意思。其实就是CMS垃圾搜集器对作用于老年代的垃圾对象进行回收,但频次太高,所以才触发了告警。
接下来给大家介绍一下引起对象进入老年代的几种场景,然后再给大家介绍一下几种触发CMSGC的情况。大家需要先搞明白有哪些情况对象会进入老年代,又达到什么标准作用于老年代的垃圾收集线程开始会对垃圾对象进行回收。
▲对象进入老年代的几种情况
  • 新生代因为垃圾回收之后,因为存活对象太多,导致Survivor空间放不下,部分对象会进入老年代
  • 大对象直接进入老年代
这里的大对象是指那些需要大量连续空间的JAVA对象,比如那种很长的字符串或数组对象。
  • 长期存活的对象将进入老年代
对象在Eden出生,并经过第一次YGC后任然存活,并且能被Survivor空间容纳,将被移动到Survivor空间中,并且对象年龄设为1。对象在Survivor空间每熬过一次YGC,年龄就增加一岁,如果达到15(默认)岁,对象就会进入老年代。
  • 动态对象年龄判断
这点是对长期存活的对象进入老年代的补充。
其实不一定要必须满足所谓的存活对象年龄达到15岁才能进入老年代。如果一次YGC后,尽管Survivor区域有空间能容纳存活对象,但这批存活对象恰好存活的年龄相同,且加起来的大小总和大于Survivor空间的一半,这些对象照样会进入老年代。
▲触发CMS垃圾收集动作的几个时机
CMS垃圾收集动作不可能实时发生,只有满足了相应条件,才会被触发。以下几点供你参考:
  • 老年代可用的连续空间小于年轻代历次YGC后升入老年代的对象总和的平均大小,说明YGC后升入老年代的对象大小很可能超过了老年底当期可用的内存空间;触发cmsgc后再进行ygc

  • ygc之后有一批对象需要放入老年代,但老年代没有足够的空间存放了,需要触发一次cmsgc

  • 老年代的内存使用率超过92%,也要触发OLD 过程(通过参数控制-xx:+CMSInitiatingOccupancyFraction)

排查过程

这个章节详细也是不少小伙伴关心的内容,一旦发生了这种告警,那你肯定第一时间比较关心的内容是:到底老年代内存区域里面,什么对象会占据那么大的空间,找到它才是当下之急。
大家其实只要记住两个步骤,就能轻松找出问题对象。
步骤一:获取堆文件
获取堆文件,我总结了如下三个方式,供大家参考
  1. 配置VM参数
    -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOGDIR}/ 虚拟机在OOM异常之后会自动生成一份dump文件在本地 
  2. 执行jmap(Java内存映像工具)命令

    jdk提供的命令行工具jmap能生成堆存储快照,jmap -dump:format=b,file=heapdump.hprof {进程ID}

  3. 阿里开源性能诊断工具:Arthas
阿里开源的性能诊断工具Arthas通过命令heapdump[类似jmap命令的heap dump功能]能生成堆快照文件。
详情大家可以参考官方说明文档:https://arthas.gitee.io/doc/heapdump.html

▲步骤二:分析堆文件
分析步骤一生成的堆文件,一般需要借助一些工具常见的有MAT、Jvisualvm等。

接下来作者用本次告警dump下来的堆文件,用MAT工具给大家演示一下具体查找问题对象的全过程。

MAT是Memory Analyzer tool的缩写,是一种快速,功能丰富的Java堆分析工具,能帮助你查找内存泄漏和减少内存消耗。
很多情况下,我们需要处理测试提供的hprof文件,分析内存相关问题,那么MAT也绝对是不二之选。Eclipse可以下载插件结合使用,也可以作为一个独立分析工具使用。
下载地址:eclipse.org/mat/downloa。如果安装过程中可能会碰到版本过低的问题,需要安装一下高版本JDK 比如11,最后设置一下安装路径即可。

 

打开堆文件

如果你已经成功安装完MAT。进入首页后就可以打开本地hprof文件了。

打开文件后,进入分析页

底部有三个功能块:Action、Reports、Step By Step。简单给大家介绍一下相应内容:
  • Actions

    Histogram 列出每个类所对应的对象个数,以及所占用的内存大小;Dominator Tree 以占用总内存的百分比的方式来列举出所有的实例对象,注意这个地方是直接列举出的对应的对象而不是类,这个视图是用来发现大内存对象的Top Consumers:按照类和包分组的方式展示出占用内存最大的一个对象Duplicate Classes:检测由多个类加载器所加载的类信息(用来查找重复的类)

  • Reports

    Leak Suspects:通过MAT自动分析当前内存泄露的主要原因
    Top Components:Top组件,列出大于总堆1%的组件的报告

  • Step By Step
    Component Report:组件报告,分析属于公共根包或类加载器的对象
Histogram选项
这里大家重点关注Histogram选项(列出每个类所对应的对象个数,以及所占用的内存大小)

DomainTree选项(以占用总内存的百分比的方式来列举出所有的实例对象)

关注上述两个选项基本就能找到问题对象了。

解决方案

要避免发生CMSGC太频繁这种情况,我总结了以下2种方案:
  1. 如果你的程序代码书写正常,纯粹是真的应用流量太大,你部署的机器没办法抗住这波流量,这种情况发生CMSGC太频繁概率就很大了,甚至最终会导致OOM异常。对这种情况也只能横向扩充机器了,以均衡流量。
  2. 如果你的机器足够,线上流量也正常,但也发生了cmsgc太频繁,甚至OOM异常。那大概率是你的程序代码有问题,导致老年代区域聚集了大量垃圾对象,垃圾回收线程频繁回收那些无用的垃圾对象,最终可能还达不到回收的理想效果,那么这个时候你不得不分析堆里面被大量占据的对象,看看是不是程序代码问题导致老年代被堆满。
    像作者文章开始出的这个案例,作者经过上述步骤分析后,发现是程序代码问题导致有大量对象进入老年代。(作者在应用中引入了一个java8的Nashorn组件,该组件的构建过程极其复杂,内部会创建很多个对象实例,因为作者的业务流量还是比较大的,每秒2000+QPS),机器也是够的大概10台(每台4C8G),分析发现内存中大量充斥着Nashorn相关代码,经过深入分析,其实这个Nashorn实例全局单例就可以了,不需要每次方法执行都构建一个实例,因为构建过程复杂且多对象,流量一高势必最终导致应用发生内存溢出等异常。

总结

OK,文章即将进入尾声,让我们一起来做个总结:
首先作者以一个自己亲身经历的GC故障为背景,跟大家介绍了一下什么是CMSGC太频繁这个术语,相信小伙伴如果下次自己碰到类似这种告警,能明白其含义。
其次作者也介绍了CMSGC太频繁一般作用的区域是老年代内存区域,有几种情况对象会从年轻代或直接进入老年代,以及老年代什么情况下会触发其垃圾回收动作。
然后作者也给大家介绍了该如何一步一步通过工具MAT去排查在堆文件里的问题对象。

最后我也总结了应该如何避免发生GC太频繁甚至OOM这类异常。如果程序代码一切正常,纯粹是瞬时流量太高才导致的GC动作加快,可以考虑临时增加服务器实例,分摊流量。不过很多问题可能都是程序员代码书写不正确才导致的,这个时候你应该首先找出问题对象,然后找出频繁创建对象的代码块。

本文完!


写到最后

作为996的程序员,写这篇文章基本都是利用工作日下班时间和周六周日双休的时间才最终成稿,比较不易。
 
如果你看了文章之后但凡对你有所帮助或启发,真诚恳请帮忙关注一下作者,点赞、在看此文。你的肯定与赞美是我未来创作最强大的动力,我也将继续前行,创作出更加优秀好的作品回馈给大家,在此先谢谢大家了!

关注我

如果这篇文章你看了对你有帮助或启发,麻烦点赞、关注一下作者。你的肯定是作者创作源源不断的动力。

公众号

里面不仅汇集了硬核的干货技术、还汇集了像左耳朵耗子、张朝阳总结的高效学习方法论、职场升迁窍门、软技能。希望能辅助你达到你想梦想之地!

公众号内回复关键字“电子书”下载pdf格式的电子书籍(JAVAEE、Spring、JVM、并发编程、Mysql、Linux、kafka、分布式等)、“开发手册”获取阿里开发手册2本、"面试"获取面试PDF资料。

有关“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  3. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  6. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  7. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

  8. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  9. ruby - ruby 中的 TOPLEVEL_BINDING 是什么? - 2

    它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput

  10. ruby - Infinity 和 NaN 的类型是什么? - 2

    我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串

随机推荐