博客專欄

EEPW首頁(yè) > 博客 > 一種動(dòng)態(tài)實(shí)現(xiàn)核隔離的方法

一種動(dòng)態(tài)實(shí)現(xiàn)核隔離的方法

發(fā)布人:天翼云開發(fā)者 時(shí)間:2023-10-30 來(lái)源:工程師 發(fā)布文章
本文分享自天翼云開發(fā)者社區(qū)《一種動(dòng)態(tài)實(shí)現(xiàn)核隔離的方法作者:y****n

https://www.ctyun.cn/developer/article/475762070474821

一、技術(shù)背景

相關(guān)概念:

核隔離:指定的cpu核心只參與最低限度的OS內(nèi)核計(jì)算; 

DPDK(Date planedevelopment kit):是一個(gè)用來(lái)進(jìn)行包數(shù)據(jù)處理加速的軟件庫(kù)。

Cpu親和性:進(jìn)程要在某個(gè)給定的CPU上盡量長(zhǎng)時(shí)間地運(yùn)行而不被遷移到其他處理器的傾向性。

背景:

網(wǎng)元節(jié)點(diǎn)上,對(duì)cpu消耗比較多的進(jìn)程可以分為幾個(gè)類別:

1、系統(tǒng)運(yùn)行相關(guān)進(jìn)程(通過(guò)systemd啟動(dòng)和管理的進(jìn)程以及內(nèi)核線程)

2、網(wǎng)元相關(guān)進(jìn)程(比如dpos、gobgpd進(jìn)程)。

然而在現(xiàn)網(wǎng)中發(fā)現(xiàn),由于系統(tǒng)運(yùn)行相關(guān)進(jìn)程與網(wǎng)元相關(guān)進(jìn)程在同內(nèi)核下運(yùn)行時(shí),會(huì)概率性的搶占pmd線程的cpu,從而導(dǎo)致dpdk丟包,影響網(wǎng)元性能。一般使用的隔離系統(tǒng)進(jìn)程方法如修改grub文件、tuned調(diào)優(yōu)方式都需要重啟才能生效,對(duì)于已經(jīng)部署到現(xiàn)網(wǎng)的網(wǎng)元而言,這些方式會(huì)對(duì)用戶業(yè)務(wù)造成極大的影響。

因此,需要尋求一種核隔離方法,使得系統(tǒng)進(jìn)程和網(wǎng)元進(jìn)程互相隔離,互不影響,以解決網(wǎng)元設(shè)備在系統(tǒng)進(jìn)程搶占業(yè)務(wù)進(jìn)程cpu內(nèi)核時(shí)可能出現(xiàn)的網(wǎng)絡(luò)延時(shí)變高,丟包等問(wèn)題,提高網(wǎng)絡(luò)通信的性能和可靠性。并且對(duì)于現(xiàn)網(wǎng)上運(yùn)行的網(wǎng)元節(jié)點(diǎn)能夠做到無(wú)感知。

二、方案設(shè)計(jì)及實(shí)現(xiàn)

本方案主要是隔離systemd啟動(dòng)和管理的進(jìn)程的cpu核,限制其運(yùn)行在網(wǎng)元進(jìn)程的預(yù)留核上。

1、確定cpu預(yù)留核分配策略

根據(jù)系統(tǒng)規(guī)格的不同,確定不同的cpu內(nèi)核分配策略。如1Numa8Cores的系統(tǒng),可將系統(tǒng)進(jìn)程分配到0-2核上;或者2Numa96Cores的系統(tǒng)??蓪⑾到y(tǒng)進(jìn)程分配到numa0的前3個(gè)cpu核以及numa1的后3個(gè)cpu核上,其余的內(nèi)核為網(wǎng)元進(jìn)程所占用。分配策略需按照服務(wù)器規(guī)格以及實(shí)際需求進(jìn)行設(shè)計(jì)。

2、設(shè)置systemd進(jìn)程親和性

通過(guò)修改/etc/systemd/system.conf文件中的CPUAffinity中的值,將其改為第一步中的預(yù)留核數(shù),如0-2。

通過(guò)systemd 

3、設(shè)置systemd子進(jìn)程親和性

對(duì)于systemd啟動(dòng)和創(chuàng)建的進(jìn)程主要分為幾類:

1、正在運(yùn)行的systemd子進(jìn)程

2、后續(xù)由systemd創(chuàng)建或者重啟的子進(jìn)程

對(duì)于后續(xù)需要由systemd創(chuàng)建的進(jìn)程或者重啟的進(jìn)程,其cpu親和性會(huì)自動(dòng)與systemd保持一致,因此只需要考慮正在運(yùn)行的systemd子進(jìn)程的核隔離。對(duì)此,采用taskset -cp cpus pid的方式進(jìn)行設(shè)置。taskset是linux操作系統(tǒng)中的一個(gè)命令,它可以對(duì)進(jìn)程進(jìn)行CPU親和性設(shè)置,即讓進(jìn)程在指定的CPU核心或者CPU核心集合上運(yùn)行。

通過(guò)cgroup和taskset兩種方式的結(jié)合,可以實(shí)現(xiàn)在現(xiàn)網(wǎng)運(yùn)行過(guò)程中,動(dòng)態(tài)的對(duì)系統(tǒng)相關(guān)的進(jìn)程(尤其是systemd啟動(dòng)和管理的進(jìn)程)進(jìn)行核隔離的目的。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 運(yùn)維 服務(wù)器

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉