在操作系統(tǒng)里,虛擬內(nèi)存被分成頁,在 x86 系統(tǒng)上每個頁大小是 4KB。Linux 內(nèi)核讀寫虛擬內(nèi)存是以 “頁” 為單位操作的,把內(nèi)存轉(zhuǎn)移到硬盤交換空間(SWAP)和從交換空間讀取到內(nèi)存的時候都是按頁來讀寫的。內(nèi)存和 SWAP 的這種交換過程稱為頁面交換(Paging),值得注意的是 paging 和 swapping 是兩個完全不同的概念,國內(nèi)很多參考書把這兩個概念混為一談,swapping 也翻譯成交換,在操作系統(tǒng)里是指把某程序完全交換到硬盤以騰出內(nèi)存給新程序使用,和 paging 只交換程序的部分(頁面)是兩個不同的概念。純粹的 swapping 在現(xiàn)代操作系統(tǒng)中已經(jīng)很難看到了,因?yàn)榘颜麄€程序交換到硬盤的辦法既耗時又費(fèi)力而且沒必要,現(xiàn)代操作系統(tǒng)基本都是 paging 或者 paging/swapping 混合,swapping 最初是在 Unix system V 上實(shí)現(xiàn)的。
虛擬內(nèi)存管理是 Linux 內(nèi)核里面最復(fù)雜的部分,這里只介紹和性能監(jiān)測有關(guān)的兩個內(nèi)核進(jìn)程:kswapd 和 pdflush。
- kswapd daemon 用來檢查 pages_high 和 pages_low,如果可用內(nèi)存少于 pages_low,kswapd 就開始掃描并試圖釋放 32個頁面,并且重復(fù)掃描釋放的過程直到可用內(nèi)存大于 pages_high 為止。掃描的時候檢查3件事:1)如果頁面沒有修改,把頁放到可用內(nèi)存列表里;2)如果頁面被文件系統(tǒng)修改,把頁面內(nèi)容寫到磁盤上;3)如果頁面被修改了,但不是被文件系統(tǒng)修改的,把頁面寫到交換空間。
- pdflush daemon 用來同步文件相關(guān)的內(nèi)存頁面,把內(nèi)存頁面及時同步到硬盤上。比如打開一個文件,文件被導(dǎo)入到內(nèi)存里,對文件做了修改后并保存后,內(nèi)核并不馬上保存文件到硬盤,由 pdflush 決定什么時候把相應(yīng)頁面寫入硬盤,這由一個內(nèi)核參數(shù) vm.dirty_background_ratio 來控制,比如下面的參數(shù)顯示臟頁面(dirty pages)達(dá)到所有內(nèi)存頁面10%的時候開始寫入硬盤。
# /sbin/sysctl -n vm.dirty_background_ratio 10
vmstat
繼續(xù) vmstat 一些參數(shù)的介紹,上一篇 Linux 性能監(jiān)測:CPU(二) 介紹了 vmstat 的部分參數(shù),這里介紹另外一部分。以下數(shù)據(jù)來自一個 256MB RAM,512MB SWAP 的 Xen VPS:
# vmstat 1 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 0 3 252696 2432 268 7148 3604 2368 3608 2372 288 288 0 0 21 78 1 0 2 253484 2216 228 7104 5368 2976 5372 3036 930 519 0 0 0 100 0 0 1 259252 2616 128 6148 19784 18712 19784 18712 3821 1853 0 1 3 95 1 1 2 260008 2188 144 6824 11824 2584 12664 2584 1347 1174 14 0 0 86 0 2 1 262140 2964 128 5852 24912 17304 24952 17304 4737 2341 86 10 0 0 4
- swpd,已使用的 SWAP 空間大小,KB 為單位;
- free,可用的物理內(nèi)存大小,KB 為單位;
- buff,物理內(nèi)存用來緩存讀寫操作的 buffer 大小,KB 為單位;
- cache,物理內(nèi)存用來緩存進(jìn)程地址空間的 cache 大小,KB 為單位;
- si,數(shù)據(jù)從 SWAP 讀取到 RAM(swap in)的大小,KB 為單位;
- so,數(shù)據(jù)從 RAM 寫到 SWAP(swap out)的大小,KB 為單位;
- bi,磁盤塊從文件系統(tǒng)或 SWAP 讀取到 RAM(blocks in)的大小,block 為單位;
- bo,磁盤塊從 RAM 寫到文件系統(tǒng)或 SWAP(blocks out)的大小,block 為單位;
上面是一個頻繁讀寫交換區(qū)的例子,可以觀察到以下幾點(diǎn):
- 物理可用內(nèi)存 free 基本沒什么顯著變化,swapd 逐步增加,說明最小可用的內(nèi)存始終保持在 256MB X 10% = 2.56MB 左右,當(dāng)臟頁達(dá)到10%的時候(vm.dirty_background_ratio = 10)就開始大量使用 swap;
- buff 穩(wěn)步減少說明系統(tǒng)知道內(nèi)存不夠了,kwapd 正在從 buff 那里借用部分內(nèi)存;
- kswapd 持續(xù)把臟頁面寫到 swap 交換區(qū)(so),并且從 swapd 逐漸增加看出確實(shí)如此。根據(jù)上面講的 kswapd 掃描時檢查的三件事,如果頁面被修改了,但不是被文件系統(tǒng)修改的,把頁面寫到 swap,所以這里 swapd 持續(xù)增加。