大家好,我是【运维开发故事公众号】的 Java 程序员老郑。JVM 是我们从事 Java 项目和开发都需要具备的非常底层的基础知识。
首先我先抛出以下几个问题:
很多服务需要过一段时间重启一次,如果不重启系统就会越来越慢?
突然一个中间件挂了一段时间过后,但是一些不相关的服务越来越卡,后面 OOM?
上线一个功能过后,CPU 就飙升到 100%,但是服务还是正常运行?
服务的某一个 CPU 出现有规律的,周期性的尖刺该如何解决?
作为 5 年以上工作经验的技术人员,或多或少在系统维护,系统保障,系统调优遇到过上面的这几个场景,你可能是通过重启,调整一些 jvm 参数解决,如果大家需要深入的探究找到问题的原因,可以耐心看看下文我对 G1 的一些总结。
本文讲哪些东西?
堆布局(以 Region 为基础划分:新生代(Eden 区、Survivor 区)、年老代、Humongous 区域) 垃圾收集周期 GC 运作过程:初始标记、并发标记、最终标记、筛选回收 GC 类型:Minor GC、Full GC 、Mixed GC CSet (年轻代需要收集的 Region 集合就是 CSet) 跨代引用 停顿预测模型 GC 日志分析
G1 内存堆布局
G1 的英文全称是 Garbagge First,是一个有分代,按照 Region 的方式进行内存布局的垃圾收集器。上图,我将一些 Region 标明了 H,它代表Humongous,这表示这些 Region 存储的是巨大对象(humongous object,H-obj),即大小大于等于 region 一半的对象。H-obj 有如下几个特征:
H-obj 直接分配到了old gen,防止了反复拷贝移动。 H-obj 在 global concurrent marking 阶段的 cleanup 和 full GC阶段回收。 在分配 H-obj 之前先检查是否超过 initiating heap occupancy percent 和 the marking threshold, 如果超过的话,就启动 global concurrent marking,为的是提早回收,防止 evacuation failures 和 full GC。
GC 类型
Young GC,垃圾收集范围:年轻代区域 + 大对象区 Mixed GC,垃圾收集范围:年轻代区域 + 老年区 + 大对象区 Full GC,垃圾收集范围:年轻代区域 + 老年区 + 大对象区 + 元空间
Collection Set (收集区域)
Collection Set 就是我们垃圾收集器的一个区域,在不同的垃圾回收阶段,会有不同的区域。
Young GC, 垃圾收集区域包括:年轻代区域 + 大对象区 Mixed GC, 垃圾收集区域包括:年轻代区域 + 老年区 + 大对象区
跨代引用
Young GC 主要是清理,新生代中的对象,我们知道整个堆空间包括老年代,新生代,我们在 Young GC 过程中会去找 GCRoots 然后判断对象是是否可达, 如果不可达,如果可达就标记。如果对于老年代中引用新生代的对象,我们如果要找出来就就需要对老年代进行全扫描,这样是不太现实的。所以 G1 通过记忆集的形式记录了老年代对新生代的引用。具体在 G1 中通过 CarTable 来实现记忆集。
RSet(记忆集)
记录了其它 Region 中的对象到 Region 的引用。RSet 的价值在于使得垃圾回收不需要扫描整个堆,能够快速定位到真正引用它的堆对象地址。ReSet 本身就是一个 Hash 表,存储在新生代的每个 Region 中。但是存储需要消耗空间,多的能达到百分之 20。因此G1对内存的空间要求较高(小空间没资本玩),空间越大性能越彪悍。
CardTable (卡表)
由于新生代GC时,需要扫描整个old区,效率非常低。所以old区就是用卡表的方式进行一次逻辑分区。一般一页卡表的大小是2的n次幂。每一个区域也是用Key,Value结构进行记录。每一区域记录为Key不重复,Value则记录这片区域的老年代对象与新生代对象是否存在引用关系,存在则标记为1,否则为0。记录完毕后把value为1的key作为ReSet的key进行记录,并且ReSet的value存储引用,从而提高跨代引用的查询效率。
停顿预测模型
所有的预测都是基于历史的拟合,HotSpot使用了基于方差与标准差的技术。参考:
https://sdww2348115.github.io/jvm/g1/PausePredictionModel
G1 垃圾收集周期
G1 有两个阶段,它会在这两个阶段往返,分别是 Young-only,Space Reclamation.
Young-only 包含一系列的操作,如果长期存活的对象会逐渐转移到 Old gen Space Reclamation G1 会递进地回收 Old gen 的空间,同时也处理 Young region
图是来自 Oracle 上对 GC 周期的描述,实心圆都表示一次 GC 停顿
蓝色 Young-only 黄色 标记过程的停顿 红色 Mixed GC 停顿
在几次 GC 后,Old gen 的对象占有比超过了
InitiatingHeapOccupancyPercent (简称为IHOP,默认值为45,这个值是启动并发标记的阈值,当老年代使用内存占用堆内存的45%启动并发标记。如果该区域过大,可能会导致mixed gc跟不上内存分配的速度从而导致full gc ),gc 就会进入并发标记准备 (Concurrent Mark)。
G1 在每一次 Young 回收中都会查找活对象 (有引用的对象) G1 在 old region 并发查找存活对象 是 Concurrent Marking 可能花费很长时间 不会停止 Java 应用 G1 没有活对象的引用信息是不能进行垃圾回收的 Mixed GC 依赖 Concurrent Mark
回到 Full GC,从上面简单分析得出,Full GC 发生是没有足够的 free region,如果堆是足够大的,Mixed gc 没有回收足够的 old region,或者 concurrent mark 没法及时完成,都可能会导致 full gc。
GC 日志分析
下面是网上找的一个 GC 日志案例,解析如下(配合 G1 垃圾收集周期结合来看):
[gc,start ] GC(44265) Pause Young (Normal) (G1 Evacuation Pause)
[gc,task ] GC(44265) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44265) Pre Evacuate Collection Set: 0.1ms
[gc,phases ] GC(44265) Evacuate Collection Set: 101.8ms
[gc,phases ] GC(44265) Post Evacuate Collection Set: 3.2ms
[gc,phases ] GC(44265) Other: 2.7ms
[gc,heap ] GC(44265) Eden regions: 1850->0(1851)
[gc,heap ] GC(44265) Survivor regions: 70->69(240)
[gc,heap ] GC(44265) Old regions: 766->768
[gc,heap ] GC(44265) Humongous regions: 20->19
[gc,metaspace ] GC(44265) Metaspace: 193280K->193280K(1230848K)
[gc ] GC(44265) Pause Young (Normal) (G1 Evacuation Pause) 21642M->6843M(25600M) 107.561ms
[gc,cpu ] GC(44265) User=1.31s Sys=0.00s Real=0.11s
[gc,start ] GC(44266) Pause Young (Normal) (G1 Evacuation Pause)
[gc,task ] GC(44266) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44266) Pre Evacuate Collection Set: 0.1ms
[gc,phases ] GC(44266) Evacuate Collection Set: 99.8ms
[gc,phases ] GC(44266) Post Evacuate Collection Set: 3.3ms
[gc,phases ] GC(44266) Other: 2.7ms
[gc,heap ] GC(44266) Eden regions: 1851->0(1854)
[gc,heap ] GC(44266) Survivor regions: 69->66(240)
[gc,heap ] GC(44266) Old regions: 768->772
[gc,heap ] GC(44266) Humongous regions: 20->19
[gc,metaspace ] GC(44266) Metaspace: 193280K->193280K(1230848K)
[gc ] GC(44266) Pause Young (Normal) (G1 Evacuation Pause) 21659M->6848M(25600M) 105.713ms
[gc,cpu ] GC(44266) User=1.29s Sys=0.01s Real=0.10s
[gc,start ] GC(44267) Pause Young (Normal) (G1 Evacuation Pause)
[gc,task ] GC(44267) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44267) Pre Evacuate Collection Set: 0.1ms //初始标记,查找 gc root
[gc,phases ] GC(44267) Evacuate Collection Set: 89.8ms //并发标记
[gc,phases ] GC(44267) Post Evacuate Collection Set: 3.5ms //清理工作
[gc,phases ] GC(44267) Other: 2.7ms
[gc,heap ] GC(44267) Eden regions: 1854->0(1856)
[gc,heap ] GC(44267) Survivor regions: 66->64(240)
[gc,heap ] GC(44267) Old regions: 772->775
[gc,heap ] GC(44267) Humongous regions: 20->19
[gc,metaspace ] GC(44267) Metaspace: 193280K->193280K(1230848K)
[gc ] GC(44267) Pause Young (Normal) (G1 Evacuation Pause) 21688M->6859M(25600M) 95.891ms
[gc,cpu ] GC(44267) User=1.16s Sys=0.00s Real=0.10s
[gc,start ] GC(44268) Pause Young (Normal) (G1 Evacuation Pause) // Young GC
[gc,task ] GC(44268) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44268) Pre Evacuate Collection Set: 0.1ms
[gc,phases ] GC(44268) Evacuate Collection Set: 100.5ms
[gc,phases ] GC(44268) Post Evacuate Collection Set: 3.8ms
[gc,phases ] GC(44268) Other: 2.8ms
[gc,heap ] GC(44268) Eden regions: 1856->0(1855)
[gc,heap ] GC(44268) Survivor regions: 64->65(240)
[gc,heap ] GC(44268) Old regions: 775->777
[gc,heap ] GC(44268) Humongous regions: 20->19
[gc,metaspace ] GC(44268) Metaspace: 193280K->193280K(1230848K)
[gc ] GC(44268) Pause Young (Normal) (G1 Evacuation Pause) 21715M->6876M(25600M) 107.037ms
[gc,cpu ] GC(44268) User=1.30s Sys=0.00s Real=0.11s
[gc,start ] GC(44269) Pause Young (Concurrent Start) (G1 Humongous Allocation) // 并发阶段
[gc,task ] GC(44269) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44269) Pre Evacuate Collection Set: 0.6ms
[gc,phases ] GC(44269) Evacuate Collection Set: 90.9ms
[gc,phases ] GC(44269) Post Evacuate Collection Set: 3.2ms
[gc,phases ] GC(44269) Other: 2.9ms
[gc,heap ] GC(44269) Eden regions: 1519->0(1855)
[gc,heap ] GC(44269) Survivor regions: 65->65(240)
[gc,heap ] GC(44269) Old regions: 777->777
[gc,heap ] GC(44269) Humongous regions: 19->19
[gc,metaspace ] GC(44269) Metaspace: 193280K->193280K(1230848K)
[gc ] GC(44269) Pause Young (Concurrent Start) (G1 Humongous Allocation) 19024M->6883M(25600M) 97.391ms
[gc,cpu ] GC(44269) User=1.16s Sys=0.01s Real=0.10s
[gc ] GC(44270) Concurrent Cycle // 完成 clearup
[gc,marking ] GC(44270) Concurrent Clear Claimed Marks
[gc,marking ] GC(44270) Concurrent Clear Claimed Marks 0.562ms
[gc,marking ] GC(44270) Concurrent Scan Root Regions
[gc,marking ] GC(44270) Concurrent Scan Root Regions 719.931ms
[gc,marking ] GC(44270) Concurrent Mark (280799.914s)
[gc,marking ] GC(44270) Concurrent Mark From Roots
[gc,task ] GC(44270) Using 3 workers of 3 for marking
[gc,marking ] GC(44270) Concurrent Mark From Roots 2268.905ms
[gc,marking ] GC(44270) Concurrent Preclean
[gc,marking ] GC(44270) Concurrent Preclean 3.078ms
[gc,marking ] GC(44270) Concurrent Mark (280799.914s, 280802.186s) 2272.068ms
[gc,start ] GC(44270) Pause Remark
[gc,stringtable] GC(44270) Cleaned string and symbol table, strings: 87967 processed, 92 removed, symbols: 442773 processed, 13 removed
[gc ] GC(44270) Pause Remark 13740M->13740M(25600M) 32.599ms
[gc,cpu ] GC(44270) User=0.29s Sys=0.00s Real=0.04s
[gc,marking ] GC(44270) Concurrent Rebuild Remembered Sets //重构记忆集
[gc,marking ] GC(44270) Concurrent Rebuild Remembered Sets 1906.792ms
[gc,start ] GC(44270) Pause Cleanup
[gc ] GC(44270) Pause Cleanup 18019M->18019M(25600M) 0.782ms
[gc,cpu ] GC(44270) User=0.00s Sys=0.01s Real=0.00s
[gc,marking ] GC(44270) Concurrent Cleanup for Next Mark
[gc,marking ] GC(44270) Concurrent Cleanup for Next Mark 25.530ms
[gc ] GC(44270) Concurrent Cycle 4963.833ms
[gc,start ] GC(44271) Pause Young (Prepare Mixed) (G1 Evacuation Pause) // Space Reclamation 阶段了,多个 Mixed GC 会进行
[gc,task ] GC(44271) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44271) Pre Evacuate Collection Set: 0.1ms
[gc,phases ] GC(44271) Evacuate Collection Set: 102.6ms
[gc,phases ] GC(44271) Post Evacuate Collection Set: 3.7ms
[gc,phases ] GC(44271) Other: 3.9ms
[gc,heap ] GC(44271) Eden regions: 1855->0(98)
[gc,heap ] GC(44271) Survivor regions: 65->62(240)
[gc,heap ] GC(44271) Old regions: 777->778
[gc,heap ] GC(44271) Humongous regions: 21->19
[gc,metaspace ] GC(44271) Metaspace: 193271K->193271K(1230848K)
[gc ] GC(44271) Pause Young (Prepare Mixed) (G1 Evacuation Pause) 21739M->6869M(25600M) 110.034ms
[gc,cpu ] GC(44271) User=1.32s Sys=0.01s Real=0.10s
[gc,start ] GC(44272) Pause Young (Mixed) (G1 Evacuation Pause)
[gc,task ] GC(44272) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44272) Pre Evacuate Collection Set: 0.4ms
[gc,phases ] GC(44272) Evacuate Collection Set: 150.8ms
[gc,phases ] GC(44272) Post Evacuate Collection Set: 3.2ms
[gc,phases ] GC(44272) Other: 2.3ms
[gc,heap ] GC(44272) Eden regions: 98->0(149)
[gc,heap ] GC(44272) Survivor regions: 62->11(20)
[gc,heap ] GC(44272) Old regions: 778->547
[gc,heap ] GC(44272) Humongous regions: 19->19
[gc,metaspace ] GC(44272) Metaspace: 193271K->193271K(1230848K)
[gc ] GC(44272) Pause Young (Mixed) (G1 Evacuation Pause) 7653M->4605M(25600M) 156.486ms
[gc,cpu ] GC(44272) User=1.95s Sys=0.01s Real=0.15s
[gc,start ] GC(44273) Pause Young (Mixed) (G1 Evacuation Pause)
[gc,task ] GC(44273) Using 13 workers of 13 for evacuation
[gc,phases ] GC(44273) Pre Evacuate Collection Set: 0.2ms
[gc,phases ] GC(44273) Evacuate Collection Set: 122.9ms
[gc,phases ] GC(44273) Post Evacuate Collection Set: 2.0ms
[gc,phases ] GC(44273) Other: 3.1ms
[gc,heap ] GC(44273) Eden regions: 149->0(1900)
[gc,heap ] GC(44273) Survivor regions: 11->20(20)
[gc,heap ] GC(44273) Old regions: 547->520
[gc,heap ] GC(44273) Humongous regions: 19->19
[gc,metaspace ] GC(44273) Metaspace: 193271K->193271K(1230848K)
[gc ] GC(44273) Pause Young (Mixed) (G1 Evacuation Pause) 5797M->4468M(25600M) 128.036ms
[gc,cpu ] GC(44273) User=1.57s Sys=0.01s Real=0.12s
上面是连续几次 GC 的日志,可以对照着 GC 周期来看。
GC (44265) 是一次普通的 Young GC里面信息有各种 Region 的变化
这里简单说一下 humongous 对象的处理,humongous 对象在 G1 中是被特殊对待的,G1 只决定它们是否生存,回收他们占用的空间,从不会移动它们。
Young-Only 阶段,humongous regions 可能会被回收 Space-Reclamation,humongous regions 可能会被回收
GC (44269) 开始进入并发阶段 GC (44270) 完成了 Cleanup,紧接着一个 Prepare Mixed GC (44271) 的垃圾收集,对应周期虚线右边的蓝实心圆 GC (44272) 之后就是 Space Reclamation 阶段了,多个 Mixed GC 会进行
JVM 性能监控工具
我们可以通过以下几种工具辅助分析 JVM 性能瓶颈:
综合组件:
VisualVM Glowroot https://arthas.aliyun.com/
thread dump 分析:
https://fastthread.io/
gc 日志分析:
https://gceasy.io/gc-index.jsp
heap dump 分析:
https://www.ibm.com/support/pages/ibm-heapanalyzer https://projects.eclipse.org/projects/tools.mat
参考资料
【GC 停顿预测模型】
http://www.narihiro.info/g1gc-impl-book/scheduling.html https://sdww2348115.github.io/jvm/g1/PausePredictionModel
【垃圾收集器执行过程】
https://bugs.openjdk.org/browse/JDK-8295118 https://my.oschina.net/u/4273516/blog/4550072
【跨代引用】
https://blog.csdn.net/weixin_47184173/article/details/113627337
【空闲时自动将Java堆内存返回给操作系统】
https://openjdk.org/jeps/346
【其他】
https://docs.oracle.com/javacomponents/jmc-5-4/jfr-runtime-guide/comline.htm#JFRUH197 https://www.redhat.com/en/blog/part-1-introduction-g1-garbage-collector https://blog.csdn.net/qq_16500963/article/details/132133125 http://cs.williams.edu/~dbarowy/cs334s18/assets/p37-detlefs.pdf https://tech.meituan.com/2016/09/23/g1.html https://hllvm-group.iteye.com/group/topic/44381
最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事」。
如果我的文章对你有所帮助,还请帮忙一下,你的支持会激励我输出更高质量的文章,非常感谢!
你还可以把我的公众号设为「星标」,这样当公众号文章更新时,你会在第一时间收到推送消息,避免错过我的文章更新。
我是 老郑,《运维开发故事》公众号团队中的一员,Java 程序员,10 余年 Java 互联网项目开发经验,擅长高并发、低延迟分布式交易系统研发。这里不仅有硬核的技术干货,还有我们对技术的思考和感悟,