系统内存是硬件系统中必不可少的部分,定时查看系统内存资源运行情况,可以帮助我们及时发现内存资源是否存在异常占用,确保业务的稳定运行。
例如:定期查看公司的网站服务器内存使用情况,可以确保服务器的资源是否够用,或者发现服务器内存被占用异常可以及时解决,避免因内存不够导致无法访问网站或访问速度慢的问题。
因此,对于 Linux 管理员来说,在日常工作中能够熟练在 Linux 系统下检查内存的运行状况就变得尤为重要!
查看内存的运行状态并非难事,但是针对不同的情况使用正确的方式查看呢?
一口君整理了几个 个非常实用的 Linux 内存查看方法
1、free命令
2、 vmstat命令
3、 /proc/meminfo 命令
4、 top命令
5、 htop 命令
6、查看进程内存信息
Linux内存总览图
)
该图很好的描述了OS内存的使用和分配等详细信息。建议大家配合该图来一起学习和理解内存的一些概念。
一、free命令
free 命令可以显示当前系统未使用的和已使用的内存数目,还可以显示被内核使用的内存缓冲区。
- free 命令语法:
free [options]
free 命令选项:
1 | bash复制代码-b # 以Byte为单位显示内存使用情况; |
- free 命令实例
1 | r复制代码free -t # 以总和的形式显示内存的使用信息 |
)
下面先解释一下输出的内容:
)
二、vmstat 指令
vmstat命令是最常见的Linux/Unix监控工具,用于查看系统的内存存储信息,是一个报告虚拟内存统计信息的小工具,属于sysstat包。
vmstat 命令报告包括:进程、内存、分页、阻塞 IO、中断、磁盘、CPU。
可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。
这个命令是我查看Linux/Unix最喜爱的命令,一个是Linux/Unix都支持,二是相比top,我可以看到整个机器的CPU,内存,IO的使用情况,而不是单单看到各个进程的CPU使用率和内存使用率(使用场景不一样)。
- 命令格式:
vmstat -s(参数)
2. 举例
一般vmstat工具的使用是通过两个数字参数来完成的,第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数,如:
root@local:~# vmstat 2 1
procs ———–memory———- —swap– —–io—- -system– —-cpu—-
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 0 3498472 315836 3819540 0 0 0 1 2 0 0 0 100 0
2表示每个两秒采集一次服务器状态,1表示只采集一次。
实际上,在应用过程中,我们会在一段时间内一直监控,不想监控直接结束vmstat就行了,例如:
)
这表示vmstat每2秒采集数据,按下ctrl + c结束程序,这里采集了3次数据我就结束了程序。
)
)
)
- 常见问题处理
常见问题及解决方法
如果r经常大于4,且id经常少于40,表示cpu的负荷很重。
如果pi,po长期不等于0,表示内存不足。
如果disk经常不等于0,且在b中的队列大于3,表示io性能不好。
1.如果在processes中运行的序列(process r)是连续的大于在系统中的CPU的个数表示系统现在运行比较慢,有多数的进程等待CPU。
2.如果r的输出数大于系统中可用CPU个数的4倍的话,则系统面临着CPU短缺的问题,或者是CPU的速率过低,系统中有多数的进程在等待CPU,造成系统中进程运行过慢。
3.如果空闲时间(cpu id)持续为0并且系统时间(cpu sy)是用户时间的两倍(cpu us)系统则面临着CPU资源的短缺。
当发生以上问题的时候请先调整应用程序对CPU的占用情况.使得应用程序能够更有效的使用CPU.同时可以考虑增加更多的CPU. 关于CPU的使用情况还可以结合mpstat, ps aux top prstat –a等等一些相应的命令来综合考虑关于具体的CPU的使用情况,和那些进程在占用大量的CPU时间.一般情况下,应用程序的问题会比较大一些.比如一些sql语句不合理等等都会造成这样的现象.
- 内存问题现象:
内存的瓶颈是由scan rate (sr)来决定的.scan rate是通过每秒的始终算法来进行页扫描的.如果scan rate(sr)连续的大于每秒200页则表示可能存在内存缺陷.同样的如果page项中的pi和po这两栏表示每秒页面的调入的页数和每秒调出的页数.如果该值经常为非零值,也有可能存在内存的瓶颈,当然,如果个别的时候不为0的话,属于正常的页面调度这个是虚拟内存的主要原理.
解决办法:
1.调节applications & servers使得对内存和cache的使用更加有效.
2.增加系统的内存.
3.Implement priority paging in s in pre solaris 8 versions by adding line “set priority paging=1” in /etc/system. Remove this line if upgrading from Solaris 7 to 8 & retaining old /etc/system file.
关于内存的使用情况还可以结ps aux top prstat –a等等一些相应的命令来综合考虑关于具体的内存的使用情况,和那些进程在占用大量的内存.
一般情况下,如果内存的占用率比较高,但是,CPU的占用很低的时候,可以考虑是有很多的应用程序占用了内存没有释放,但是,并没有占用CPU时间,可以考虑应用程序,对于未占用CPU时间和一些后台的程序,释放内存的占用。
r 表示运行队列(就是说多少个进程真的分配到CPU),我测试的服务器目前CPU比较空闲,没什么程序在跑,当这个值超过了CPU数目,就会出现CPU瓶颈了。
这个也和top的负载有关系,一般负载超过了3就比较高,超过了5就高,超过了10就不正常了,服务器的状态很危险。
top的负载类似每秒的运行队列。如果运行队列过大,表示你的CPU很繁忙,一般会造成CPU使用率很高。
- 常见性能问题分析
IO/CPU/men连锁反应
1.free急剧下降
2.buff和cache被回收下降,但也无济于事
3.依旧需要使用大量swap交换分区swpd
4.等待进程数,b增多
5.读写IO,bi bo增多
6.si so大于0开始从硬盘中读取
7.cpu等待时间用于 IO等待,wa增加
内存不足
1.开始使用swpd,swpd不为0
2.si so大于0开始从硬盘中读取
io瓶颈
1 | erlang复制代码1.读写IO,bi bo增多超过2000 |
CPU瓶颈:load,vmstat中r列
1 | bash复制代码1.反应为CPU队列长度 |
三、/proc/meminfo
用途:用于从/proc文件系统中提取与内存相关的信息。这些文件包含有 系统和内核的内部信息。其实 free 命令中的信息都来自于 /proc/meminfo 文件。/proc/meminfo 文件包含了更多更原始的信息,只是看起来不太直观。
- 查看方法:
cat /proc/meminfo
2. 实例及信息解释
1 | ruby复制代码peng@ubuntu:~$ cat /proc/meminfo |
注意这个文件显示的单位是kB而不是KB,1kB=1000B,但是实际上应该是KB,1KB=1024B
还可以使用命令 less /proc/meminfo 直接读取该文件。通过使用 less 命令,可以在长长的输出中向上和向下滚动,找到你需要的内容。
从中我们可以很清晰明了的看出内存中的各种指标情况,例如 MemFree的空闲内存和SwapFree中的交换内存。
3. 代码实例
负责输出/proc/meminfo的源代码是:
fs/proc/meminfo.c : meminfo_proc_show()
static int meminfo_proc_show(struct seq_file *m, void *v)
{
struct sysinfo i;
unsigned long committed;
long cached;
long available;
unsigned long pages[NR_LRU_LISTS];
int lru;
si_meminfo(&i);
si_swapinfo(&i);
committed = percpu_counter_read_positive(&vm_committed_as);
cached = global_node_page_state(NR_FILE_PAGES) -
total_swapcache_pages() - i.bufferram;
if (cached < 0)
cached = 0;
for (lru = LRU_BASE; lru < NR_LRU_LISTS; lru++)
pages[lru] = global_node_page_state(NR_LRU_BASE + lru);
available = si_mem_available();
show_val_kb(m, “MemTotal: “, i.totalram);
show_val_kb(m, “MemFree: “, i.freeram);
show_val_kb(m, “MemAvailable: “, available);
show_val_kb(m, “Buffers: “, i.bufferram);
show_val_kb(m, “Cached: “, cached);
show_val_kb(m, “SwapCached: “, total_swapcache_pages());
show_val_kb(m, “Active: “, pages[LRU_ACTIVE_ANON] +
pages[LRU_ACTIVE_FILE]);
show_val_kb(m, “Inactive: “, pages[LRU_INACTIVE_ANON] +
pages[LRU_INACTIVE_FILE]);
show_val_kb(m, “Active(anon): “, pages[LRU_ACTIVE_ANON]);
show_val_kb(m, “Inactive(anon): “, pages[LRU_INACTIVE_ANON]);
show_val_kb(m, “Active(file): “, pages[LRU_ACTIVE_FILE]);
show_val_kb(m, “Inactive(file): “, pages[LRU_INACTIVE_FILE]);
show_val_kb(m, “Unevictable: “, pages[LRU_UNEVICTABLE]);
show_val_kb(m, “Mlocked: “, global_zone_page_state(NR_MLOCK));
#ifdef CONFIG_HIGHMEM
show_val_kb(m, “HighTotal: “, i.totalhigh);
show_val_kb(m, “HighFree: “, i.freehigh);
show_val_kb(m, “LowTotal: “, i.totalram - i.totalhigh);
show_val_kb(m, “LowFree: “, i.freeram - i.freehigh);
#endif
#ifndef CONFIG_MMU
show_val_kb(m, “MmapCopy: “,
(unsigned long)atomic_long_read(&mmap_pages_allocated));
#endif
show_val_kb(m, “SwapTotal: “, i.totalswap);
show_val_kb(m, “SwapFree: “, i.freeswap);
show_val_kb(m, “Dirty: “,
global_node_page_state(NR_FILE_DIRTY));
show_val_kb(m, “Writeback: “,
global_node_page_state(NR_WRITEBACK));
show_val_kb(m, “AnonPages: “,
global_node_page_state(NR_ANON_MAPPED));
show_val_kb(m, “Mapped: “,
global_node_page_state(NR_FILE_MAPPED));
show_val_kb(m, “Shmem: “, i.sharedram);
show_val_kb(m, “Slab: “,
global_node_page_state(NR_SLAB_RECLAIMABLE) +
global_node_page_state(NR_SLAB_UNRECLAIMABLE));
show_val_kb(m, “SReclaimable: “,
global_node_page_state(NR_SLAB_RECLAIMABLE));
show_val_kb(m, “SUnreclaim: “,
global_node_page_state(NR_SLAB_UNRECLAIMABLE));
seq_printf(m, “KernelStack: %8lu kB\n”,
global_zone_page_state(NR_KERNEL_STACK_KB));
show_val_kb(m, “PageTables: “,
global_zone_page_state(NR_PAGETABLE));
#ifdef CONFIG_QUICKLIST
show_val_kb(m, “Quicklists: “, quicklist_total_size());
#endif
show_val_kb(m, “NFS_Unstable: “,
global_node_page_state(NR_UNSTABLE_NFS));
show_val_kb(m, “Bounce: “,
global_zone_page_state(NR_BOUNCE));
show_val_kb(m, “WritebackTmp: “,
global_node_page_state(NR_WRITEBACK_TEMP));
show_val_kb(m, “CommitLimit: “, vm_commit_limit());
show_val_kb(m, “Committed_AS: “, committed);
seq_printf(m, “VmallocTotal: %8lu kB\n”,
(unsigned long)VMALLOC_TOTAL >> 10);
show_val_kb(m, “VmallocUsed: “, 0ul);
show_val_kb(m, “VmallocChunk: “, 0ul);
#ifdef CONFIG_MEMORY_FAILURE
seq_printf(m, “HardwareCorrupted: %5lu kB\n”,
atomic_long_read(&num_poisoned_pages) << (PAGE_SHIFT - 10));
#endif
#ifdef CONFIG_TRANSPARENT_HUGEPAGE
show_val_kb(m, “AnonHugePages: “,
global_node_page_state(NR_ANON_THPS) * HPAGE_PMD_NR);
show_val_kb(m, “ShmemHugePages: “,
global_node_page_state(NR_SHMEM_THPS) * HPAGE_PMD_NR);
show_val_kb(m, “ShmemPmdMapped: “,
global_node_page_state(NR_SHMEM_PMDMAPPED) * HPAGE_PMD_NR);
#endif
#ifdef CONFIG_CMA
show_val_kb(m, “CmaTotal: “, totalcma_pages);
show_val_kb(m, “CmaFree: “,
global_zone_page_state(NR_FREE_CMA_PAGES));
#endif
hugetlb_report_meminfo(m);
arch_report_meminfo(m);
return 0;
}
四、top 指令
用途:用于打印系统中的CPU和内存使用情况。输出结果中,可以很清晰的看出已用和可用内存的资源情况。top 最好的地方之一就是发现可能已经失控的服务的进程 ID 号(PID)。有了这些 PID,你可以对有问题的任务进行故障排除(或 kill)。
语法
1 | css复制代码top [-] [d delay] [q] [c] [S] [s] [i] [n] [b] |
参数说明:
1 | yaml复制代码d : 改变显示的更新速度,或是在交谈式指令列( interactive command)按 s |
举例
图片
第一行,任务队列信息,同 uptime 命令的执行结果
系统时间:02:19:10 运行时间:up 2:26 min, 当前登录用户:1 user 负载均衡(uptime) load average: 0.00, 0.06, 0.07 average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。load average数据是每隔5秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑CPU的数量,结果高于5的时候就表明系统在超负荷运转了
第二行,Tasks — 任务(进程)
总进程:229 total, 运行:1 running, 休眠:163 sleeping, 停止: 0 stopped, 僵尸进程: 0 zombie
第三行,cpu状态信息
0.7%us【user space】— 用户空间占用CPU的百分比。1.0%sy【sysctl】— 内核空间占用CPU的百分比。0.0%ni【】— 改变过优先级的进程占用CPU的百分比 97.9%id【idolt】— 空闲CPU百分比 0.3%wa【wait】— IO等待占用CPU的百分比 0.0%hi【Hardware IRQ】— 硬中断占用CPU的百分比 0.0%si【Software Interrupts】— 软中断占用CPU的百分比
第四行,内存状态
2017504 total, 653616 free, 1154200 used, 209688 buff/cache【缓存的内存量】
第五行,swap交换分区信息
998396 total, 771068 free, 227328 used. 635608 avail Mem
第七行以下:各进程(任务)的状态监控
PID — 进程id USER — 进程所有者 PR — 进程优先级 NI — nice值。负值表示高优先级,正值表示低优先级 VIRT — 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES RES — 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA SHR — 共享内存大小,单位kb S —进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程 %CPU — 上次更新到现在的CPU时间占用百分比 %MEM — 进程使用的物理内存百分比 TIME+ — 进程使用的CPU时间总计,单位1/100秒 COMMAND — 进程名称(命令名/命令行)
常用实例
显示进程信息
# top
显示完整命令
# top -c
以批处理模式显示程序信息
# top -b
以累积模式显示程序信息
# top -S
设置信息更新次数
top -n 2
//表示更新两次后终止更新显示
设置信息更新时间
# top -d 3
//表示更新周期为3秒
显示指定的进程信息
# top -p 139
//显示进程号为139的进程信息,CPU、内存占用率等
显示更新十次后退出
top -n 10
五、htop 指令
htop 它类似于 top 命令,但可以让你在垂直和水平方向上滚动,所以你可以看到系统上运行的所有进程,以及他们完整的命令行。
可以不用输入进程的 PID 就可以对此进程进行相关的操作 (killing, renicing)。
htop快照:
图片
可以使用快捷键
1 | makefile复制代码F1,h,?:查看htop使用说明, |
第1行-第4行:显示CPU当前的运行负载,有几核就有几行,我的是1核
Mem:显示内存的使用情况,3887M大概是3.8G,此时的Mem不包含buffers和cached的内存,所以和free -m会不同Swp:显示交换空间的使用情况,交换空间是当内存不够和其中有一些长期不用的数据时,ubuntu会把这些暂时放到交换空间中
其他信息可以参考top命令说明。
PS:如果你终端没安装 htop,先通过指令来安装。sudo apt-get update sudo apt install htop
六、查看制定进程的内存
通过/proc/procid/status查看进程内存
1 | yaml复制代码peng@ubuntu:~$ cat /proc/4398/status |
总结:
确定内存使用情况是Linux运维工程师必要的技能,尤其是某个应用程序变得异常和占用系统内存时。当发生这种情况时,知道有多种工具可以帮助你进行故障排除十分方便的。
本文转载自: 掘金