新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 解析Linux新技術對象存儲文件系統(tǒng)

解析Linux新技術對象存儲文件系統(tǒng)

作者: 時間:2016-09-12 來源:網(wǎng)絡 收藏

2、并發(fā)數(shù)據(jù)訪問體系結構定義了一個新的、更加智能化的磁盤接口OSD。OSD是與網(wǎng)絡連接的設備,它自身包含存儲介質(zhì),如磁盤或磁帶,并具有足夠的智能可以管理本地存儲的數(shù)據(jù)。計算結點直接與OSD通信,訪問它存儲的數(shù)據(jù),由于OSD具有智能,因此不需要文件服務器的介入。如果將的數(shù)據(jù)分布在多個OSD上,則聚合I/O速率和數(shù)據(jù)吞吐率將線性增長,對絕大多數(shù)集群應用來說,持續(xù)的I/O聚合帶寬和吞吐率對較多數(shù)目的計算結點是非常重要的。結構提供的性能是目前其它存儲結構難以達到的,如ActiveScale的帶寬可以達到10GB/s。

2.3 Lustre對象存儲

Lustre對象存儲文件系統(tǒng)就是由客戶端(client)、存儲服務器(OST,Object Storage Target)和元數(shù)據(jù)服務器(MDS)三個主要部分組成。Lustre的客戶端運行Lustre文件系統(tǒng),它和OST進行文件數(shù)據(jù)I/O的交互,和MDS進行命名空間操作的交互。為了提高Lustre文件系統(tǒng)的性能,通常Client、OST和MDS是分離,當然這些子系統(tǒng)也可以運行在同一個系統(tǒng)中。其三個主要部分如圖1所示。

圖1 Lustre文件系統(tǒng)的組成

Lustre是一個透明的全局文件系統(tǒng),客戶端可以透明地訪問集群文件系統(tǒng)中的數(shù)據(jù),而無需知道這些數(shù)據(jù)的實際存儲位置??蛻舳送ㄟ^網(wǎng)絡讀取服務器上的數(shù)據(jù),存儲服務器負責實際文件系統(tǒng)的讀寫操作以及存儲設備的連接,元數(shù)據(jù)服務器負責文件系統(tǒng)目錄結構、文件權限和文件的擴展屬性以及維護整個文件系統(tǒng)的數(shù)據(jù)一致性和響應客戶端的請求。 Lustre把文件當作由元數(shù)據(jù)服務器定位的對象,元數(shù)據(jù)服務器指導實際的文件I/O請求到存儲服務器,存儲服務器管理在基于對象的磁盤組上的物理存儲。由于采用元數(shù)據(jù)和存儲數(shù)據(jù)相分離的技術,可以充分分離計算和存儲資源,使得客戶端計算機可以專注于用戶和應用程序的請求;存儲服務器和元數(shù)據(jù)服務器專注于讀、傳輸和寫數(shù)據(jù)。存儲服務器端的數(shù)據(jù)備份和存儲配置以及存儲服務器擴充等操作不會影響到客戶端,存儲服務器和元數(shù)據(jù)服務器均不會成為性能瓶頸。

Lustre的全局命名空間為文件系統(tǒng)的所有客戶端提供了一個有效的全局唯一的目錄樹,并將數(shù)據(jù)條塊化,再把數(shù)據(jù)分配到各個存儲服務器上,提供了比傳統(tǒng)SAN的塊共享更為靈活的共享訪問方式。全局目錄樹消除了在客戶端的配置信息,并且在配置信息更新時仍然保持有效。

三、測試和結論

1、Lustre iozone測試

針對對象存儲文件系統(tǒng),我們對Lustre文件系統(tǒng)作了初步測試,具體配置如下:

3臺雙至強系統(tǒng):CPU:1.7GHz,內(nèi)存:1GB,千兆位以太網(wǎng)

Lustre文件系統(tǒng):lustre-1.0.2

版本:RedHat 8

測試程序:iozone

測試結果如下:

塊寫(MB/s/thread) 單線程 兩個線程

Lustre 1個OST 2個OST 1個OST 2個OST

21.7 50 12.8 24.8

NFS 12 5.8

從以上的測試表明,單一OST的寫帶寬比NFS好,2個OST的擴展性很好,顯示strip的效果,兩個線程的聚合帶寬基本等于飽和帶寬,但lustre客戶方的CPU利用率非常高(90%以上),測試系統(tǒng)的規(guī)模(三個節(jié)點)受限,所以沒有向上擴展OST和client數(shù)量。另外,lustre的cache對文件寫的性能提升比NFS好。通過bonnie++初步測試了lustre的元數(shù)據(jù)處理能力,和NFS比,文件創(chuàng)建速度相對快一些,readdir速度慢。

2、lustre小規(guī)模測試數(shù)據(jù)(文件寫測試,單位KB/s):

硬件:Dual Xeon1.7,GigE, SCSI Ultra160 軟件:RedHat8,iozone

圖2 2個OST / 1個MDS

圖3 1個OST/1個MDS

圖4 NFS測試

從初步的測試看,lustre的性能和可擴展性都不錯。與傳統(tǒng)的文件系統(tǒng)相比,對象存儲文件系統(tǒng)具有以下優(yōu)勢:

(1)性能。對象存儲體系結構沒有其它共享存儲系統(tǒng)中的元數(shù)據(jù)管理器瓶頸。NAS系統(tǒng)使用一個集中的文件服務器作為元數(shù)據(jù)管理器,一些SAN文件系統(tǒng)則采用集中的鎖管理器,最后元數(shù)據(jù)管理將成為一個瓶頸。對象存儲體系結構類似于SAN,每個結點都可以直接訪問它的存儲設備。對象存儲體系結構對SAN的改進是沒有RAID控制器的瓶頸問題,當計算結點的規(guī)模增大時,該優(yōu)勢將非常明顯,所有結點的總吞吐率最后將受限于存儲系統(tǒng)的規(guī)模和網(wǎng)絡的性能。存儲對象結點發(fā)送數(shù)據(jù)到OSD,OSD自動優(yōu)化數(shù)據(jù)的分布,這樣減少了計算結點的負擔,并允許向多個OSD并行讀寫,最大化單個Client的吞吐率。

(2)可擴展性。將負載分布到多個智能的OSD,并用網(wǎng)絡和軟件將它們有機結合起來,消除了可擴展問題。一個對象存儲系統(tǒng)有內(nèi)存、處理器、磁盤系統(tǒng)等,允許它們增加其存儲處理能力而與系統(tǒng)其它部分無關。如果對象存儲系統(tǒng)沒有足夠的存儲處理能力,可以增加OSD,確保線性增加性能。

(3)OSD分擔主要的元數(shù)據(jù)服務任務。元數(shù)據(jù)管理能力通常是共享存儲系統(tǒng)的瓶頸,所有計算結點和存儲結點都需要訪問它。在對象存儲結構中,元數(shù)據(jù)服務有兩部分組成:inode元數(shù)據(jù),管理介質(zhì)上的存儲塊分布;文件元數(shù)據(jù),管理文件系統(tǒng)的文件層次結構和目錄。對象存儲結構增加了元數(shù)據(jù)訪問的可擴展,OSD負責自己的inode元數(shù)據(jù),增加一個OSD可以增加磁盤容量,并可以增加元數(shù)據(jù)管理資源。而傳統(tǒng)的NAS服務器增加更多的磁盤,則性能將更慢。對象存儲系統(tǒng)在容量擴展時,確保持續(xù)的吞吐率。

(4)易管理。智能化的分布對象存儲結構可以簡化存儲管理任務,可以簡化數(shù)據(jù)優(yōu)化分布的任務。例如,新增存儲容量可以自動合并到存儲系統(tǒng)中,因為OSD可以接受來自計算結點發(fā)出的對象請求。系統(tǒng)管理員不需要創(chuàng)建LUN,不需要重新調(diào)整分區(qū),不需要重新平衡邏輯卷,不需要更新文件服務器等。RAID塊可自動擴展到新的對象,充分利用新增的OSD。



評論


相關推薦

技術專區(qū)

關閉