Linux kernel 自 2.6.28 開始正式支持新的文件系統(tǒng) Ext4。 Ext4 是 Ext3 的改進版,修改了 Ext3 中部分重要的數(shù)據(jù)結(jié)構(gòu),而不僅僅像 Ext3 對 Ext2 那樣,只是增加了一個日志功能而已。Ext4 可以提供更佳的性能和可靠性,還有更為豐富的功能:
1. 與 Ext3 兼容。執(zhí)行若干條命令,就能從 Ext3 在線遷移到 Ext4,而無須重新格式化磁盤或重新安裝系統(tǒng)。原有 Ext3 數(shù)據(jù)結(jié)構(gòu)照樣保留,Ext4 作用于新數(shù)據(jù),當然,整個文件系統(tǒng)因此也就獲得了 Ext4 所支持的更大容量。
2. 更大的文件系統(tǒng)和更大的文件。較之 Ext3 目前所支持的最大 16TB 文件系統(tǒng)和最大 2TB 文件,Ext4 分別支持 1EB(1,048,576TB, 1EB=1024PB, 1PB=1024TB)的文件系統(tǒng),以及 16TB 的文件。
3. 無限數(shù)量的子目錄。Ext3 目前只支持 32,000 個子目錄,而 Ext4 支持無限數(shù)量的子目錄。
4. Extents。Ext3 采用間接塊映射,當操作大文件時,效率極其低下。比如一個 100MB 大小的文件,在 Ext3 中要建立 25,600 個數(shù)據(jù)塊(每個數(shù)據(jù)塊大小為 4KB)的映射表。而 Ext4 引入了現(xiàn)代文件系統(tǒng)中流行的 extents 概念,每個 extent 為一組連續(xù)的數(shù)據(jù)塊,上述文件則表示為“該文件數(shù)據(jù)保存在接下來的 25,600 個數(shù)據(jù)塊中”,提高了不少效率。
5. 多塊分配。當寫入數(shù)據(jù)到 Ext3 文件系統(tǒng)中時,Ext3 的數(shù)據(jù)塊分配器每次只能分配一個 4KB 的塊,寫一個 100MB 文件就要調(diào)用 25,600 次數(shù)據(jù)塊分配器,而 Ext4 的多塊分配器“multiblock allocator”(mballoc) 支持一次調(diào)用分配多個數(shù)據(jù)塊。
6. 延遲分配。Ext3 的數(shù)據(jù)塊分配策略是盡快分配,而 Ext4 和其它現(xiàn)代文件操作系統(tǒng)的策略是盡可能地延遲分配,直到文件在 cache 中寫完才開始分配數(shù)據(jù)塊并寫入磁盤,這樣就能優(yōu)化整個文件的數(shù)據(jù)塊分配,與前兩種特性搭配起來可以顯著提升性能。
7. 快速 fsck。以前執(zhí)行 fsck 第一步就會很慢,因為它要檢查所有的 inode,現(xiàn)在 Ext4 給每個組的 inode 表中都添加了一份未使用 inode 的列表,今后 fsck Ext4 文件系統(tǒng)就可以跳過它們而只去檢查那些在用的 inode 了。
8. 日志校驗。日志是最常用的部分,也極易導致磁盤硬件故障,而從損壞的日志中恢復數(shù)據(jù)會導致更多的數(shù)據(jù)損壞。Ext4 的日志校驗功能可以很方便地判斷日志數(shù)據(jù)是否損壞,而且它將 Ext3 的兩階段日志機制合并成一個階段,在增加安全性的同時提高了性能。
9. “無日志”(No Journaling)模式。日志總歸有一些開銷,Ext4 允許關(guān)閉日志,以便某些有特殊需求的用戶可以借此提升性能。
10. 在線碎片整理。盡管延遲分配、多塊分配和 extents 能有效減少文件系統(tǒng)碎片,但碎片還是不可避免會產(chǎn)生。Ext4 支持在線碎片整理,并將提供 e4defrag 工具進行個別文件或整個文件系統(tǒng)的碎片整理。
11. inode 相關(guān)特性。Ext4 支持更大的 inode,較之 Ext3 默認的 inode 大小 128 字節(jié),Ext4 為了在 inode 中容納更多的擴展屬性(如納秒時間戳或 inode 版本),默認 inode 大小為 256 字節(jié)。Ext4 還支持快速擴展屬性(fast extended attributes)和 inode 保留(inodes reservation)。
12. 持久預分配(Persistent preallocation)。P2P 軟件為了保證下載文件有足夠的空間存放,常常會預先創(chuàng)建一個與所下載文件大小相同的空文件,以免未來的數(shù)小時或數(shù)天之內(nèi)磁盤空間不足導致下載失敗。 Ext4 在文件系統(tǒng)層面實現(xiàn)了持久預分配并提供相應(yīng)的 API(libc 中的 posix_fallocate()),比應(yīng)用軟件自己實現(xiàn)更有效率。
13. 默認啟用 barrier。磁盤上配有內(nèi)部緩存,以便重新調(diào)整批量數(shù)據(jù)的寫操作順序,優(yōu)化寫入性能,因此文件系統(tǒng)必須在日志數(shù)據(jù)寫入磁盤之后才能寫 commit 記錄,若 commit 記錄寫入在先,而日志有可能損壞,那么就會影響數(shù)據(jù)完整性。Ext4 默認啟用 barrier,只有當 barrier 之前的數(shù)據(jù)全部寫入磁盤,才能寫 barrier 之后的數(shù)據(jù)。(可通過 "mount -o barrier=0" 命令禁用該特性。)
Ext4 隨 Linux kernel 2.6.28 正式發(fā)布已有數(shù)周,一直苦于找不到測試用的磁盤,正巧年前 Intel 送來幾塊 SSD 測試樣品,這兩天就順帶把 SSD 也測了。測試所使用的 Linux 內(nèi)核版本為 2.6.28.2,測試工具為 IOzone 3.318。
IOzone 測試命令為:
time /opt/iozone/bin/iozone -a -s 4G -q 256 -y 4 >|/root/ext4-iozone-stdout.txt
上述命令的說明如下:
Auto Mode
File size set to 4194304 KB
Using Maximum Record Size 256 KB
Using Minimum Record Size 4 KB
Command line used: /opt/iozone/bin/iozone -a -s 4G -q 256 -y 4
Output is in Kbytes/sec
Time Resolution = 0.000001 seconds.
Processor cache size set to 1024 Kbytes.
Processor cache line size set to 32 bytes.
File stride size set to 17 * record size.
測試結(jié)果除了表明 Intel SSD 的讀寫速度快得令人咋舌之外,還可以說明 Ext4 的各方面性能都超過了上一代 Ext3,甚至在大多數(shù)情況下,比沒有日志功能的 Ext2 還要快出不少:
reclen | write | rewrite | read | reread | random read | random write | |
Ext2 | 4 | 218,680 | 216,596 | 630,248 | 245,802 | 88,700 | 138,065 |
8 | 215,308 | 218,690 | 556,064 | 246,260 | 154,680 | 150,052 | |
real 28m12.718s | 16 | 216,457 | 216,843 | 575,046 | 245,701 | 258,660 | 158,750 |
user 0m10.725s | 32 | 217,925 | 214,289 | 537,976 | 243,081 | 394,013 | 167,002 |
sys 5m8.265s | 64 | 215,460 | 219,256 | 527,919 | 244,362 | 503,227 | 162,917 |
128 | 219,081 | 216,173 | 540,831 | 242,526 | 609,750 | 161,442 | |
256 | 216,091 | 217,631 | 565,111 | 245,157 | 654,274 | 173,955 | |
Ext3 | 4 | 218,242 | 213,039 | 482,132 | 243,986 | 88,007 | 156,926 |
8 | 218,390 | 217,915 | 544,892 | 244,979 | 152,424 | 190,454 | |
real 27m42.449s | 16 | 218,083 | 217,683 | 561,038 | 244,506 | 255,244 | 200,032 |
user 0m11.529s | 32 | 216,258 | 217,013 | 569,246 | 243,811 | 389,745 | 198,275 |
sys 7m17.049s | 64 | 218,850 | 217,711 | 577,529 | 243,725 | 497,689 | 201,693 |
128 | 220,234 | 215,687 | 530,519 | 241,615 | 608,244 | 199,619 | |
256 | 216,011 | 220,188 | 592,578 | 242,548 | 642,341 | 199,408 | |
Ext4 | 4 | 221,823 | 216,992 | 532,488 | 273,668 | 85,210 | 183,195 |
8 | 226,028 | 218,580 | 561,960 | 272,036 | 154,972 | 216,505 | |
real 27m3.485s | 16 | 222,241 | 217,746 | 547,548 | 270,895 | 260,899 | 223,895 |
user 0m10.847s | 32 | 220,121 | 213,025 | 240,426 | 247,628 | 345,210 | 175,977 |
sys 6m9.578s | 64 | 223,983 | 214,437 | 308,696 | 551,577 | 754,941 | 225,897 |
128 | 222,576 | 217,816 | 624,636 | 271,293 | 644,500 | 224,997 | |
256 | 221,202 | 222,238 | 541,685 | 270,898 | 671,748 | 228,085 | |
bkwd read | record rewrite | stride read | fwrite | frewrite | fread | freread | |
Ext2 | 106,112 | 1,882,623 | 73,538 | 214,175 | 218,364 | 566,570 | 247,381 |
188,397 | 2,462,367 | 130,896 | 217,157 | 216,647 | 583,808 | 248,397 | |
real 28m12.718s | 306,842 | 2,654,320 | 220,939 | 216,061 | 218,140 | 598,174 | 246,581 |
user 0m10.725s | 464,240 | 2,397,831 | 340,775 | 217,434 | 219,353 | 583,463 | 246,341 |
sys 5m8.265s | 609,546 | 2,546,079 | 456,243 | 216,875 | 217,692 | 571,707 | 244,264 |
721,701 | 2,656,729 | 551,122 | 217,780 | 217,427 | 579,271 | 242,291 | |
870,547 | 2,574,261 | 634,835 | 216,638 | 219,693 | 563,735 | 247,101 | |
Ext3 | 105,557 | 1,540,739 | 75,010 | 216,028 | 216,432 | 522,704 | 243,385 |
181,486 | 1,945,603 | 130,737 | 218,364 | 216,431 | 530,853 | 243,222 | |
real 27m42.449s | 300,212 | 2,096,495 | 221,329 | 216,930 | 216,661 | 514,177 | 244,069 |
user 0m11.529s | 446,462 | 1,934,853 | 338,785 | 216,809 | 219,296 | 530,634 | 243,446 |
sys 7m17.049s | 589,535 | 2,036,412 | 450,449 | 219,387 | 214,900 | 514,353 | 244,809 |
714,295 | 1,992,168 | 553,022 | 217,828 | 218,454 | 513,596 | 241,510 | |
834,240 | 2,092,959 | 624,043 | 217,682 | 218,165 | 529,358 | 242,878 | |
Ext4 | 103,036 | 1,862,817 | 74,781 | 225,841 | 220,620 | 523,799 | 272,848 |
178,482 | 2,135,372 | 132,506 | 227,423 | 215,766 | 641,021 | 271,328 | |
real 27m3.485s | 295,288 | 2,095,966 | 223,135 | 226,055 | 216,210 | 621,287 | 273,475 |
user 0m10.847s | 451,631 | 2,145,351 | 342,236 | 225,796 | 213,427 | 598,331 | 269,759 |
sys 6m9.578s | 523,130 | 2,218,016 | 448,086 | 227,030 | 214,706 | 582,795 | 272,323 |
720,468 | 2,308,315 | 582,943 | 225,971 | 217,373 | 552,335 | 274,237 | |
845,494 | 2,215,381 | 643,715 | 225,411 | 219,166 | 580,066 | 273,342 |
注:
1. 關(guān)于 IOzone 測試方法,參考 Ben Martin 的文章:IOzone for filesystem performance benchmarking
2. 關(guān)于 Ext4 的相關(guān)內(nèi)容,參考 Kernel Newbies 專頁: http://kernelnewbies.org/Ext4