Linux內(nèi)核結(jié)構(gòu)詳解
nbsp1.進(jìn)程調(diào)度(SCHED):控制進(jìn)程對(duì)CPU的訪問。當(dāng)需要選擇下一個(gè)進(jìn)程運(yùn)行時(shí),由調(diào)度程序選擇最值得運(yùn)行的進(jìn)程??蛇\(yùn)行進(jìn)程實(shí)際上是僅等待CPU資源的進(jìn)程,如果某個(gè)進(jìn)程在等待其它資源,則該進(jìn)程是不可運(yùn)行進(jìn)程。Linux使用了比較簡單的基于優(yōu)先級(jí)的進(jìn)程調(diào)度算法選擇新的進(jìn)程。
nbsp2.內(nèi)存管理(MM)允許多個(gè)進(jìn)程安全的共享主內(nèi)存區(qū)域。Linux的內(nèi)存管理支持虛擬內(nèi)存,即在計(jì)算機(jī)中運(yùn)行的程序,其代碼,數(shù)據(jù),堆棧的總量可以超過實(shí)際內(nèi)存的大小,操作系統(tǒng)只是把當(dāng)前使用的程序塊保留在內(nèi)存中,其余的程序塊則保留在磁盤中。必要時(shí),操作系統(tǒng)負(fù)責(zé)在磁盤和內(nèi)存間交換程序塊。內(nèi)存管理從邏輯上分為硬件無關(guān)部分和硬件有關(guān)部分。硬件無關(guān)部分提供了進(jìn)程的映射和邏輯內(nèi)存的對(duì)換;硬件相關(guān)的部分為內(nèi)存管理硬件提供了虛擬接口。
nbsp3.虛擬文件系統(tǒng)(VirtualFileSystem,VFS)隱藏了各種硬件的具體細(xì)節(jié),為所有的設(shè)備提供了統(tǒng)一的接口,VFS提供了多達(dá)數(shù)十種不同的文件系統(tǒng)。虛擬文件系統(tǒng)可以分為邏輯文件系統(tǒng)和設(shè)備驅(qū)動(dòng)程序。邏輯文件系統(tǒng)指Linux所支持的文件系統(tǒng),如ext2,fat等,設(shè)備驅(qū)動(dòng)程序指為每一種硬件控制器所編寫的設(shè)備驅(qū)動(dòng)程序模塊。
nbsp4.網(wǎng)絡(luò)接口(NET)提供了對(duì)各種網(wǎng)絡(luò)標(biāo)準(zhǔn)的存取和各種網(wǎng)絡(luò)硬件的支持。網(wǎng)絡(luò)接口可分為網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)驅(qū)動(dòng)程序。網(wǎng)絡(luò)協(xié)議部分負(fù)責(zé)實(shí)現(xiàn)每一種可能的網(wǎng)絡(luò)傳輸協(xié)議。網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序負(fù)責(zé)與硬件設(shè)備通訊,每一種可能的硬件設(shè)備都有相應(yīng)的設(shè)備驅(qū)動(dòng)程序。
nbsp5.進(jìn)程間通訊(IPC) 支持進(jìn)程間各種通信機(jī)制。
處于中心位置的進(jìn)程調(diào)度,所有其它的子系統(tǒng)都依賴它,因?yàn)槊總€(gè)子系統(tǒng)都需要掛起或恢復(fù)進(jìn)程。一般情況下,當(dāng)一個(gè)進(jìn)程等待硬件操作完成時(shí),它被掛起;當(dāng)操作真正完成時(shí),進(jìn)程被恢復(fù)執(zhí)行。例如,當(dāng)一個(gè)進(jìn)程通過網(wǎng)絡(luò)發(fā)送一條消息時(shí),網(wǎng)絡(luò)接口需要掛起發(fā)送進(jìn)程,直到硬件成功地完成消息的發(fā)送,當(dāng)消息被成功的發(fā)送出去以后,網(wǎng)絡(luò)接口給進(jìn)程返回一個(gè)代碼,表示操作的成功或失敗。其他子系統(tǒng)以相似的理由依賴于進(jìn)程調(diào)度。
各個(gè)子系統(tǒng)之間的依賴關(guān)系如下:
進(jìn)程調(diào)度與內(nèi)存管理之間的關(guān)系:這兩個(gè)子系統(tǒng)互相依賴。在多道程序環(huán)境下,程序要運(yùn)行必須為之創(chuàng)建進(jìn)程,而創(chuàng)建進(jìn)程的第一件事情,就是將程序和數(shù)據(jù)裝入內(nèi)存。
進(jìn)程間通信與內(nèi)存管理的關(guān)系:進(jìn)程間通信子系統(tǒng)要依賴內(nèi)存管理支持共享內(nèi)存通信機(jī)制,這種機(jī)制允許兩個(gè)進(jìn)程除了擁有自己的私有空間,還可以存取共同的內(nèi)存區(qū)域。
虛擬文件系統(tǒng)與網(wǎng)絡(luò)接口之間的關(guān)系:虛擬文件系統(tǒng)利用網(wǎng)絡(luò)接口支持網(wǎng)絡(luò)文件系統(tǒng)(NFS),也利用內(nèi)存管理支持RAMDISK設(shè)備。
內(nèi)存管理與虛擬文件系統(tǒng)之間的關(guān)系:內(nèi)存管理利用虛擬文件系統(tǒng)支持交換,交換進(jìn)程(swapd)定期由調(diào)度程序調(diào)度,這也是內(nèi)存管理依賴于進(jìn)程調(diào)度的唯一原因。當(dāng)一個(gè)進(jìn)程存取的內(nèi)存映射被換出時(shí),內(nèi)存管理向文件系統(tǒng)發(fā)出請(qǐng)求,同時(shí),掛起當(dāng)前正在運(yùn)行的進(jìn)程。
除了這些依賴關(guān)系外,內(nèi)核中的所有子系統(tǒng)還要依賴于一些共同的資源。這些資源包括所有子系統(tǒng)都用到的過程。例如:分配和釋放內(nèi)存空間的過程,打印警告或錯(cuò)誤信息的過程,還有系統(tǒng)的調(diào)試?yán)痰鹊取?br />
系統(tǒng)數(shù)據(jù)結(jié)構(gòu)
在linux的內(nèi)核的實(shí)現(xiàn)中,有一些數(shù)據(jù)結(jié)構(gòu)使用頻度較高,他們是:
nbsptask_struct.
nbspLinux內(nèi)核利用一個(gè)數(shù)據(jù)結(jié)構(gòu)(task_struct)代表一個(gè)進(jìn)程,代表進(jìn)程的數(shù)據(jù)結(jié)構(gòu)指針形成了一個(gè)task數(shù)組(Linux中,任務(wù)和進(jìn)程是相同的術(shù)語),這種指針數(shù)組有時(shí)也稱為指針向量。這個(gè)數(shù)組的大小由NR_TASKS(默認(rèn)為512),表明Linux系統(tǒng)中最多能同時(shí)運(yùn)行的進(jìn)程數(shù)目。當(dāng)建立新進(jìn)程的時(shí)候,Linux為新進(jìn)程分配一個(gè)task_struct結(jié)構(gòu),然后將指針保存在task數(shù)組中。調(diào)度程序一直維護(hù)著一個(gè)current指針,他指向當(dāng)前正在運(yùn)行的進(jìn)程。
nbspMm_struct
每個(gè)進(jìn)程的虛擬內(nèi)存由一個(gè)mm_struct結(jié)構(gòu)來代表,該結(jié)構(gòu)實(shí)際上包含了當(dāng)前執(zhí)行映像的有關(guān)信息,并且包含了一組指向vm_area_struct結(jié)構(gòu)的指針,vm_area_struct結(jié)構(gòu)描述了虛擬內(nèi)存的一個(gè)區(qū)域。
nbspInode
虛擬文件系統(tǒng)(VFS)中的文件、目錄等均由對(duì)應(yīng)的索引節(jié)點(diǎn)(inode)代表。每個(gè)VFS索引節(jié)點(diǎn)中的內(nèi)容由文件系統(tǒng)專屬的例程提供。VFS索引節(jié)點(diǎn)只存在于內(nèi)核內(nèi)存中,實(shí)際保存于VFS的索引節(jié)點(diǎn)高速緩存中。如果兩個(gè)進(jìn)程用相同的進(jìn)程打開,則可以共享inade的數(shù)據(jù)結(jié)構(gòu),這種共享是通過兩個(gè)進(jìn)程中數(shù)據(jù)塊指向相同的inode完成。
Linux的具體結(jié)構(gòu)
所謂具體結(jié)構(gòu)是指系統(tǒng)實(shí)現(xiàn)的結(jié)構(gòu)。
nbspLinux的具體結(jié)構(gòu)類似于抽象結(jié)構(gòu),這種對(duì)應(yīng)性是因?yàn)槌橄蠼Y(jié)構(gòu)來源于具體結(jié)構(gòu),我們的劃分沒有嚴(yán)格依照源代碼的目錄結(jié)構(gòu),且和子系統(tǒng)的分組也不完全匹配,但是,它很接近源代碼的目錄結(jié)構(gòu)。
盡管前面的討論的抽象結(jié)構(gòu)顯示了各個(gè)子系統(tǒng)之間只有很少的依賴關(guān)系,但是具體結(jié)構(gòu)的5個(gè)子系統(tǒng)之間有高度的依賴關(guān)系。我們可以看出,具體結(jié)構(gòu)中的很多依賴關(guān)系并沒有在抽象結(jié)構(gòu)中出現(xiàn)。
Linux內(nèi)核源代碼
目前,較新而又穩(wěn)定的內(nèi)核版本是2.0.x和2.2.x,因?yàn)榘姹静煌杂胁顒e,因此如果你想讓一個(gè)新的驅(qū)動(dòng)程序既支持2.0.x,又支持2.2.x,就需要根據(jù)內(nèi)核版本進(jìn)行條件編譯,要作到這一點(diǎn),就要支持宏LINUX_VERSION_CODE,假如內(nèi)核的版本用a.b.c來表示,這個(gè)宏的值就是216a+28b+c。要用到指定內(nèi)核版本的值,我們可以用KERNEL_VERSION宏,我們也可以自己去定義它。
對(duì)內(nèi)核的修改用補(bǔ)丁文件的方式發(fā)布的。Patch實(shí)用程序用來用來對(duì)內(nèi)核源文件進(jìn)行一系列的修改。例如:你有2.2.9的源代碼,但想移到2.2.10。就可以獲得2.2.10的補(bǔ)丁文件,應(yīng)用patch來修改2.2.9源文件。例如:
$nbspcd /usr/src/linux
$nbsppatch –pl nbsppatch-2.2.10
Linux 內(nèi)核源代碼的結(jié)構(gòu)
nbspLinux內(nèi)核源代碼位于/usr/src/linux目錄下。
/include子目錄包含了建立內(nèi)核代碼時(shí)所需的大部分包含文件,這個(gè)模塊利用其他模塊重建內(nèi)核。
/init 子目錄包含了內(nèi)核的初始化代碼,這是內(nèi)核工作的開始的起點(diǎn)。
/arch子目錄包含了所有硬件結(jié)構(gòu)特定的內(nèi)核代碼。如:i386,alpha
/drivers子目錄包含了內(nèi)核中所有的設(shè)備驅(qū)動(dòng)程序,如塊設(shè)備和SCSI設(shè)備。
/fs子目錄包含了所有的文件系統(tǒng)的代碼。如:ext2,vfat等。
/net子目錄包含了內(nèi)核的連網(wǎng)代碼。
/mm子目錄包含了所有內(nèi)存管理代碼。
/ipc子目錄包含了進(jìn)程間通信代碼。
/kernel子目錄包含了主內(nèi)核代碼。
從何處開始閱讀源代碼?
在Internet,有人制作了源代碼導(dǎo)航器,為閱讀源代碼提供了良好的條件,站點(diǎn)為lxr.linux.no/source。
下面給出閱讀源代碼的線索:
系統(tǒng)的啟動(dòng)和初始化:
在基于Intel的系統(tǒng)上,當(dāng)loadlin.exe或LILO把內(nèi)核裝入到內(nèi)存并把控制權(quán)傳遞給內(nèi)核時(shí),內(nèi)核開始啟動(dòng)。關(guān)于這一部分請(qǐng)看,arch/i386/kernel/head.S,head.S進(jìn)行特定結(jié)構(gòu)的設(shè)置,然后跳轉(zhuǎn)到init/main.c的main()例程。
內(nèi)存管理:
內(nèi)存管理的代碼主要在/mm,但是特定結(jié)構(gòu)的代碼在arch/*/mm。缺頁中斷處理的代碼在/mm/memory.c ,而內(nèi)存映射和頁高速緩存器的代碼在/mm/filemap.c 。緩沖器高速緩存是在/mm/buffer.c 中實(shí)現(xiàn),而交換高速緩存是在mm/swap_state.c和mm/swapfile.c。
內(nèi)核:
內(nèi)核中,特定結(jié)構(gòu)的代碼在arch/*/kernel,調(diào)度程序在kernel/sched.c,fork的代碼在kernel/fork.c,內(nèi)核例程處理程序在include/linux/interrupt.h,task_struct數(shù)據(jù)結(jié)構(gòu)在inlucde/linux/sched.h中。
nbspPCI:
nbspPCI偽驅(qū)動(dòng)程序在drivers/pci/pci.c,其定義在inclulde/linux/pci.h。每一種結(jié)構(gòu)都有一些特定的PCInbspBIOS代碼,Intel的在arch/alpha/kernel/bios32.c中。
進(jìn)程間通信:
所有的SystemVIPC對(duì)象權(quán)限都包含在ipc_perm數(shù)據(jù)結(jié)構(gòu)中,這可以在include/linux/ipc.h中找到。SystemV消息是在ipc/msg.c中實(shí)現(xiàn)。共享內(nèi)存在ipc/shm.c中實(shí)現(xiàn)。信號(hào)量在ipc/sem.c中,管道在/ipc/pipe.c中實(shí)現(xiàn)。
中斷處理:
內(nèi)核的中斷處理代碼幾乎所有的微處理器特有的。中斷處理代碼在arch/i386/kernel/irq.c中,其定義在include/asm-i386/irq.h中。
評(píng)論