起因
服务器负载每隔一段时间就有负载过高报警,想着装一个面板不至于负载过高,然后就开始排查。
目前是关闭了该服务器的预警。其性能问题我也无法解决~
过程
top检查
在报警的时候 top
查看了下系统进程
使用 top 命令没有看到服务器的负载有异常,但从 load average
看到最近的 15 分钟负载确实有一点高。
从第一行load average
中可以看出来系统近1分钟负载过高,核心进程是1panel和dotnet,(1panel肯定没问题)
htop检查
apt install htop
# 然后按下F5展示进程树
从htop可见dotnet相关进程(线程)MyNodeQuery占用CPU过多
问了我大佬(🤩)的服务器不会出现这种情况
mynoequery确实有一些定时任务,但是不至于太高负载。(每次定时任务会导致负载报警)
跑个gb5
测试可知结果是CPU
性能太差啦!!!
gb5测试
仓库地址
https://github.com/i-abc/GB5
结果如下
# ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## #
# 专用于服务器的GB5测试 #
# v2024-05-08 #
# bash <(curl -sL bash.icu/gb5) #
# https://github.com/i-abc/gb5 #
# ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## #
当前时间:2024-06-26 11:44:21 CST
净测试时长:3分45秒
Geekbench 5 测试结果
系统信息
Operating System Debian GNU/Linux 11 (bullseye)
Kernel Linux 5.10.0-28-amd64 x86_64
Model QEMU Standard PC (Q35 + ICH9, 2009)
Motherboard N/A
BIOS SeaBIOS rel-1.16.2-0-gea1b7a073390-prebuilt.qemu.org
处理器信息
Name Intel Xeon E5-2680 v3
Topology 1 Processor, 1 Core
Identifier GenuineIntel Family 6 Model 63 Stepping 2
Base Frequency 2.50 GHz
L1 Instruction Cache 32.0 KB
L1 Data Cache 32.0 KB
L2 Cache 4.00 MB
L3 Cache 16.0 MB
内存信息
Size 965 MB
单核测试分数:502
多核测试分数:476
详细结果链接:https://browser.geekbench.com/v5/cpu/22619171
可供参考链接:https://browser.geekbench.com/search?k=v5_cpu&q=Intel%20Xeon%20E5-2680%20v3
个人保存链接:https://browser.geekbench.com/v5/cpu/22619171/claim?key=1742
单多和分数太低了:跑mynodequery还是算了,之后再迁移吧~ QWQ
服务器负载的排查思路
关于负载
Load 就是对计算机干活多少的度量,Load Average 就是一段时间(1分钟、5分钟、15分钟)内平均Load。
下列图片转载自:
https://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html
如有侵权,请联系我,我将删除!
系统负荷为0,意味着大桥上一辆车也没有。
系统负荷为0.5,意味着大桥一半的路段有车。
系统负荷为1.0,意味着大桥的所有路段都有车,也就是说大桥已经"满"了。但是必须注意的是,直到此时大桥还是能顺畅通行的。
系统负荷为1.7,意味着车辆太多了,大桥已经被占满了(100%),后面等着上桥的车辆为桥面车辆的70%。以此类推,系统负荷2.0,意味着等待上桥的车辆与桥面的车辆一样多;系统负荷3.0,意味着等待上桥的车辆是桥面车辆的2倍。总之,当系统负荷大于1,后面的车辆就必须等待了;系统负荷越大,过桥就必须等得越久。
排查思路
CPU使用率或负载过高:一般来说,当CPU使用率≥80%时,定义为CPU使用率过高。CPU使用率持续过高,可能会导致实例运行速度变慢,自动关机或重启、无法登录等问题。
带宽使用率过高:一般来说,带宽使用率≥当前带宽80%时,定义为带宽使用率过高。带宽使用率持续过高,将影响实例的网络连通性或网络吞吐,例如实例无法远程连接、网速过慢等。
内存使用率过高:一般来说,当内存使用率≥80%时,定义为内存使用率过高。内存使用率过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。
I/O使用率过高:一般来说,当前I/O读写≥该云盘I/O的80%时,定义为I/O使用率过高。I/O使用率过高,可能会出现文件读写变慢、应用性能下降或报错等问题。
sar查看负载状况
sar是System Activity Reporter(系统活动情况报告)的缩写,sar工具对系统状态进行取样后,通过计算数据和比例来表达系统当前的运行状态。其特点是可以连续对系统取样,获得大量的取样数据。其取样数据和分析结果可以存入文件,所需的负载很小。
sar是Linux系统中较为全面的性能分析工具,可以从多个方面对系统的活动进行监控和报告,包括文件读写情况、系统调用使用情况、串口、CPU效率、内存使用情况、进程活动及IPC(Inter-Process Communication,进程间通信)等。
安装
apt install sysstat # debian/ubuntu yum install sysstat # centos
启动
systemctl start sysstat
查看启动状态
systemctl status sysstat
能看见active表示已经启动运行
查看CPU使用率
sar -u 1 5 #每隔一秒刷新,刷新5次
显示如下
root@s4670:~# sar -u 1 5 #每隔一秒刷新,刷新5次
Linux 5.10.0-28-amd64 (s4670) 06/26/2024 _x86_64_ (1 CPU)
01:27:38 PM CPU %user %nice %system %iowait %steal %idle
01:27:39 PM all 6.12 0.00 2.04 0.00 2.04 89.80
01:27:40 PM all 8.08 0.00 3.03 0.00 0.00 88.89
01:27:41 PM all 5.10 0.00 2.04 0.00 0.00 92.86
01:27:42 PM all 4.12 0.00 2.06 0.00 0.00 93.81
01:27:43 PM all 3.09 0.00 1.03 0.00 1.03 94.85
Average: all 5.32 0.00 2.04 0.00 0.61 92.02
%user:用户模式下消耗的CPU时间比例。
%nice:通过nice改变了进程调度优先级的进程,在用户模式下消耗的CPU时间比例。
%system:系统模式下消耗的CPU时间比例。
%iowait:CPU等待磁盘I/O导致空闲状态消耗的时间比例。
%steal:利用Xen等操作系统虚拟化技术,等待其它虚拟CPU计算占用的时间比例。
%idle:CPU空闲时间百分比。
查看队列长度和CPU平均负载
sar -q 1 10 #每隔一秒刷新,刷新10次
结果如下
root@s4670:~# sar -q 1 10 #每隔一秒刷新,刷新10次
Linux 5.10.0-28-amd64 (s4670) 06/26/2024 _x86_64_ (1 CPU)
01:41:37 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked
01:41:38 PM 0 213 0.54 0.63 0.55 0
01:41:39 PM 0 213 0.54 0.63 0.55 0
01:41:40 PM 0 213 0.54 0.63 0.55 0
01:41:41 PM 2 213 0.54 0.63 0.55 0
01:41:42 PM 0 213 0.54 0.63 0.55 0
01:41:43 PM 0 212 0.50 0.62 0.55 0
01:41:44 PM 0 212 0.50 0.62 0.55 0
01:41:45 PM 0 212 0.50 0.62 0.55 0
01:41:46 PM 0 211 0.50 0.62 0.55 0
01:41:47 PM 2 208 0.50 0.62 0.55 0
Average: 0 212 0.52 0.62 0.55 0
runq-sz:运行队列的长度,即等待运行的进程数。
plist-sz:进程列表中进程(processes)和线程(threads)的数量。
ldavg-1:最后1分钟的系统平均负载。
ldavg-5:最后5分钟的系统平均负载。
ldavg-15:最后15分钟的系统平均负载。
查看磁盘负载
sar -d 1 3 #每隔一秒刷新,刷新3次
结果如下:
tps:每秒I/O的传输总数。
rd_sec/s:每秒读取的扇区的次数。
wr_sec/s:每秒写入的扇区的次数。
avgrq-sz:平均每次磁盘I/O操作的扇区大小。
avgqu-sz:磁盘请求队列的平均长度。
await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间。
svctm:系统处理每次请求的平均时间。
%util:I/O请求占用的CPU百分比,值越高,说明I/O越慢。
查看内存负载
sar -r 1 3 #每隔一秒刷新,刷新3次
结果如下
kbmemfree:该值和free命令中的free值基本一致,不包括buffer和cache空间。
kbmemused:该值和free命令中的used值基本一致,包括buffer和cache空间。
%memused:物理内存使用率,该值是kbmemused和内存总量(不包括swap内存)的百分比。
kbbuffers和kbcached:这两个值和free命令中的buffer和cache一致。
kbcommit:保证当前系统所需要的内存,即为了确保不溢出而需要的内存,即RAM加上swap的内存。
%commit:该值是kbcommit与内存总量(包括swap内存)的百分比。
查看IO负载
sar -b 1 10 #每隔一秒刷新,刷新10次
结果如下
tps:每秒钟向物理设备请求数据次数。
rtps:每秒钟向物理设备读请求次数。
wtps:每秒钟向物理设备写请求次数。
bread/s:每秒钟从物理设备读入的数据量。
bwrtn/s:每秒钟向物理设备写入的数据量。
常见sar命令参数
sar命令的参数说明如下,区分大小写。
-A:汇总所有的报告。
-a:报告文件读写使用情况。
-B:报告附加缓存的使用情况。
-b:报告缓存的使用情况。
-c:报告系统调用的使用情况。
-d:报告磁盘的使用情况。
-g:报告串口的使用情况。
-h:报告关于buffer使用的统计数据。
-m:报告IPC消息队列和信号量的使用情况。
-n:报告命名cache的使用情况。
-p:报告调页活动的使用情况。
-q:报告运行队列和交换队列的平均长度。
-R:报告进程的活动情况。
-r:报告没有使用的内存页面和硬盘块。
-u:报告CPU的利用率。
-v:报告进程、i节点、文件和锁表状态。
-w:报告系统交换活动状况。
-y:报告TTY设备活动状况。
htop查看进程负载情况
htop是Linux系统中的一个互动进程查看器,可以很直观地查看CPU、内存、swap的使用情况及平均负载。
与 Linux 传统的 top 相比, htop 更加人性化. 它可让用户交互式操作, 支持颜色主题, 可横向或纵向滚动浏览进程列表, 并支持鼠标操作.
推荐使用htop(新时代)而不是top(落后啦)
安装
apt install htop # ubuntu/debian yum install htop # centos
启动
htop
htop启动后的界面如下图所示,不同区域说明如下:
①:左侧显示CPU、内存、swap交换区的使用情况,右侧显示进程总数、平均负载及系统运行时间。
②:当前系统中所有进程的使用情况,可通过单击CPU%或MEM%对CPU使用率及内存使用率排序,查看使用率较高的进程。
③F1到F10功能键。
参数信息说明
快捷指令如下(重点在于F1-F10)
命令行帮助