中國聯(lián)通基于英特爾智慧節(jié)能方案推動數(shù)據(jù)中心節(jié)能減排
“氣候和環(huán)境危機凸顯了通過創(chuàng)新科技降低碳足跡的重要性。英特爾 與中國聯(lián)通在數(shù)據(jù)中心節(jié)能減排方面的合作體現(xiàn)了雙方在踐行綠色 節(jié)能方面的承諾,也為業(yè)界提供了服務器能效提升的有益參考。我 們希望能夠以這些合作成果為依托,推動以數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā) 展為綜合目標的產(chǎn)業(yè)高質(zhì)量發(fā)展?!? — 李亞東 英特爾中國政企及全球 OEM 解決方案事業(yè)部總經(jīng)理
本文引用地址:http://2s4d.com/article/202504/469225.htm“中國聯(lián)通在新戰(zhàn)略指引下, 制定了《建設新型數(shù)字信息 基礎設施行動計劃》和《算 網(wǎng)融合發(fā)展行動計劃》,統(tǒng) 籌推進新型數(shù)據(jù)中心、云網(wǎng) 深度融合,通過與英特爾等 業(yè)界領(lǐng)先廠商的合作,探索 技術(shù)引領(lǐng)與管理效能提升, 貫徹落實國家雙碳決策?!? — 康凱 聯(lián)通集團云網(wǎng)運營中心項目經(jīng)理
概述 中國已經(jīng)明確提出 2030 年“碳達峰”與 2060 年“碳中和”目標,實現(xiàn)雙碳目標不僅有助 于降低對環(huán)境的壓力,同時也是實現(xiàn)可持續(xù)發(fā)展的必然要求。為更好地響應國家政策, 助力經(jīng)濟社會綠色發(fā)展,并為全球應對氣候變化貢獻力量,中國聯(lián)通將構(gòu)建以綠色節(jié)能為主要特征的新型數(shù)字信息基礎設施作為重點工作,實施了大量技術(shù)與管理舉措,并取 得顯著成效。 目前,中國聯(lián)通的綠色化發(fā)展戰(zhàn)略在數(shù)據(jù)中心領(lǐng)域已經(jīng)廣泛落地,有力地推動了低碳化 發(fā)展目標的實現(xiàn)。為了進一步推動數(shù)據(jù)中心的節(jié)能減排,中國聯(lián)通與英特爾深度合作,充分利用英特爾智慧節(jié)能方案在數(shù)據(jù)中心實現(xiàn)節(jié)能減排。該方案能夠通過軟件和人工智 能 (AI) 模型對服務器能耗進行預測和干預,提高數(shù)據(jù)中心的運行能效,同時滿足業(yè)務工 作負載對于服務級別協(xié)議 (SLA) 的要求,且無需對應用進行更改。目前,該方案已經(jīng)在 實驗室中,結(jié)合中國聯(lián)通大數(shù)據(jù)等業(yè)務場景進行實驗驗證,被證明能夠比基準方案節(jié)電 最多 28%1。中國聯(lián)通與英特爾還計劃進一步推動該方案在更多業(yè)務場景的擴展應用, 不斷提升中國聯(lián)通的綠色發(fā)展水平。
背景:控制數(shù)據(jù)中心能耗是踐行雙碳目標 的重要方式 當前,環(huán)境危機以及能源供應挑戰(zhàn)日趨嚴峻,使得越來越多的人 將目光轉(zhuǎn)移到了環(huán)境保護上。降低社會經(jīng)濟發(fā)展中的能源消耗、 建立人與自然和諧發(fā)展的綠色經(jīng)濟,不僅有助于降低對環(huán)境的壓 力,也是實現(xiàn)可持續(xù)發(fā)展的必然要求。在中國雙碳行動規(guī)劃中, 已經(jīng)明確了 “十四五” 與 “十五五” 期間,通過能源綠色低碳轉(zhuǎn)型 行動、節(jié)能降碳增效行動、工業(yè)領(lǐng)域碳達峰行動、城鄉(xiāng)建設碳達 峰行動等方式,實現(xiàn)碳達峰、碳中和。 但同時,能耗持續(xù)增長的整體趨勢仍未改變。研究報告顯示,由 于經(jīng)濟活動加速,2021 年全球能源消耗量增長 5.8%2,超過了 疫情前的水平,這凸顯了低碳發(fā)展面臨的嚴峻挑戰(zhàn)。要推動社會 經(jīng)濟整體節(jié)能減排,實現(xiàn)云與數(shù)據(jù)中心的綠色發(fā)展至關(guān)重要。數(shù) 據(jù)顯示,截至 2020 年底,中國數(shù)據(jù)中心耗電量已經(jīng)突破 2000 億千瓦時,能耗占全國總用電量的 2.7%,預計 2022 年耗電量 將達到 2700 億千瓦時3。
作為全球領(lǐng)先的知名電信運營商,中國聯(lián)通在 2021 年發(fā)布的 《“碳達峰、碳中和” 十四五行動計劃》4 中,明確提出要 “不斷 提高通信網(wǎng)絡基礎設施綠色化水平,助力行業(yè)綠色低碳高質(zhì)量 發(fā)展邁上新臺階”。對于通信云的構(gòu)建、管理和運維,中國聯(lián)通 希望在保障 5G 等各類通信業(yè)務高效發(fā)展的同時,盡可能降低能 耗開銷。 為了降低數(shù)據(jù)中心的能耗水平,業(yè)界普遍以優(yōu)化數(shù)據(jù)中心能源使 用效率 (Power Usage Effectiveness,PUE) 為目標,降低空 調(diào)等附加設備的能耗。但是,PUE 降低到一定程度之后會進入 瓶頸期,而且,部分以降低 PUE 為目標的方案較為復雜,需要 大量的部署、建設工作,不僅建設周期較長,而且會導致總體擁 有成本 (TCO) 顯著提升。 基于上述考慮,中國聯(lián)通在推動降低數(shù)據(jù)中心 PUE 的同時,從 數(shù)據(jù)中心 IT 設備入手,進一步提升節(jié)能減排能力。要做到這一點,就需要更好地提升數(shù)據(jù)中心核心 IT 設備 — 服務器的能效水 平,對 CPU 功耗進行更加精準的調(diào)節(jié),但這也會面臨如下重要挑戰(zhàn):
? 雖然 CPU 制程與工藝在不斷進步,但是由于數(shù)據(jù)中心工作負 載對于計算能力和算力密度提出了更高的要求,CPU 芯片整 體的熱設計功率 (TDP) 不斷攀升,這對于服務器的整體能耗 帶來了嚴峻的挑戰(zhàn)。
? 傳統(tǒng)的 CPU 能耗控制方案通常采用業(yè)務彈性編排的方式,實 現(xiàn)部分冗余主機休眠、空閑核深度節(jié)能、輕負載核調(diào)頻的目 標。但是,傳統(tǒng)方案通常采用的是靜態(tài)調(diào)整的策略,無法根據(jù) 業(yè)務調(diào)度進行靈活調(diào)整配置。在傳統(tǒng)方案中,主機和內(nèi)核常常 會整體關(guān)停,難以實現(xiàn)更細粒度的控制,能耗控制效果不盡如 人意。
? 傳統(tǒng)的 CPU 能耗控制方案無法精準洞察、預測 CPU 的負載, 難以在精確控制功耗的同時有效管理 SLA,也就無法針對業(yè)務 的 SLA 要求對于能耗進行精細控制。
解決方案:
采用英特爾智慧節(jié)能方案實現(xiàn) 數(shù)據(jù)中心節(jié)能減排 為了進一步推動數(shù)據(jù)中心綠色發(fā)展進程,中國聯(lián)通與英特爾于 2021 年開始合作,雙方制定了整體的數(shù)據(jù)中心節(jié)能減排計劃, 并從 5G 核心網(wǎng)開始探索,逐步擴展到大數(shù)據(jù)等領(lǐng)域,不斷推進 智慧節(jié)能方案的落地。雙方將現(xiàn)階段合作的重點放在服務器節(jié)能 減排領(lǐng)域,并采用英特爾智慧節(jié)能方案更加精準、智慧地預測、 控制服務器的能耗,從而在滿足業(yè)務工作負載對 SLA 要求的前 提下,更大程度地提升節(jié)能水平。
英特爾智慧節(jié)能方案
英特爾智慧節(jié)能方案是依托英特爾? 人工智能方案和服務器平臺 技術(shù)的節(jié)能減排方案,通過 AI 模型和軟件方案進行預測和干預, 提高數(shù)據(jù)中心的運行能效。英特爾智慧節(jié)能方案采用智能遙測 (Intelligent Telemetry)、基于 Chronos 的時序數(shù)據(jù)分析、 英特爾? 至強? 平臺級能效控制、基于容器運行時接口的資源管 理器 (CRI-RM) 動態(tài)資源管理策略等構(gòu)件,能夠有效滿足業(yè)務工 作負載的 SLA 要求,且無需對應用進行更改。
智能遙測
英特爾智慧節(jié)能方案選擇了開源監(jiān)控組件 Prometheus。 作為云原生事實上的標準遙測工具,Prometheus 用于收 集和聚合指標作為時間序列數(shù)據(jù),并提供了 collectd 作為 系統(tǒng)統(tǒng)計數(shù)據(jù)收集守護進程,可以通過多種方式發(fā)布這些 數(shù)據(jù)。英特爾還開發(fā)了高性能 Python 插件來獲取不受支 持的指標,以提高性能、減少開銷。
基于 Chronos 的時序數(shù)據(jù)分析
Chronos 框架源自英特爾開源的統(tǒng)一大數(shù)據(jù)分析和人工 智能平臺 BigDL,在模型訓練中能夠使用全部參數(shù)訓練回 歸模型,自動分析提取重要參數(shù),僅使用重要參數(shù)訓練預 測模型。在模型推理中,Chronos 框架能夠預測工作負 載變化,在查詢網(wǎng)絡中尋找更優(yōu)控制參數(shù),通過 CRI-RM webhook 來應用新的更優(yōu)控制參數(shù)。
英特爾? 至強? 平臺級能效控制
英特爾智慧節(jié)能方案提供了英特爾? 至強? 平臺級功耗控制 選項,融合操作系統(tǒng)層面的系統(tǒng)能源調(diào)節(jié)、CPU Turbo、 驅(qū)動,處理器能效級別的 EEP 控制、SAPM 控制、動態(tài) 切換,以及能級狀態(tài)的 PCS 狀態(tài)調(diào)整,以針對不同場景 提供更佳配置。方案提供細粒度的硬件控制旋鈕,動態(tài)切 換控制處理器內(nèi)部的眾多算法。
基于容器運行時接口的資源管理器 (CRI-RM) 動態(tài)資源管理策略
該特性能夠通過在節(jié)點上的動態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調(diào)度器,實現(xiàn)在節(jié)點層面上的合理任務編排, 將英特爾平臺的特性高效適配到 Kubernetes 的集群環(huán)境。 CRI-RM Balloon Policy 支持控制 CPU 核心頻率與非核心 頻率,用戶可以基于 CRI-RM Balloon Policy 創(chuàng)建 CPU 資 源池,為不同類型的工作負載定義 Balloon 類型,并能夠動 態(tài)更改 CPU 類和 Balloon 大小配置。
英特爾智慧節(jié)能方案能夠?qū)τ⑻貭? 至強? 可擴展處理器的各種運行指標進行智能遙測,在提供可視化監(jiān)視支持的同時,將遙測數(shù)據(jù) 輸入到閉環(huán)控制邏輯之中,在操作系統(tǒng)層面、處理器能效級別、處理器能級狀態(tài)進行細粒度控制,以針對不同場景提供更佳的能效控 制。在單節(jié)點閉環(huán)控制的基礎上,英特爾智慧節(jié)能方案能夠便捷地擴展到集群閉環(huán)控制(如圖 3 所示),有效提升數(shù)據(jù)中心的整體能效水平。
與傳統(tǒng)服務器節(jié)能方案相比,英特爾智慧節(jié)能方案能夠進行更加智慧的峰谷預測,在閑時支持更多冗余主機休眠,顯著提升節(jié)能效果。
英特爾智慧節(jié)能方案還可根據(jù)業(yè)務 SLA 進行智能調(diào)頻,提供更細粒度控制,以及更多功耗控制抓手,在業(yè)務 SLA 要求與節(jié)能效果之
間實現(xiàn)更佳的平衡。
中國聯(lián)通采用英特爾智慧節(jié)能方案優(yōu)化數(shù)據(jù)中心能耗
中國聯(lián)通在通信云資源池的 5G 網(wǎng)元、大數(shù)據(jù)等業(yè)務上,對業(yè)務 數(shù)據(jù)、處理器占用率進行了分析。結(jié)果顯示業(yè)務量與時間相關(guān), 且存在波峰波谷特性,在業(yè)務運行期間,可通過實時檢測業(yè)務 負載、業(yè)務質(zhì)量指標的變化,來靈活調(diào)整服務器的運行狀態(tài),實 施動態(tài)節(jié)能減排。 基于英特爾智慧節(jié)能方案豐富的組件和集成的優(yōu)化策略,中國聯(lián) 通從如下流程入手,提升節(jié)能減排效果:
? 在服務器運行過程中,利用英特爾智慧節(jié)能方案支持的眾多組 件對于服務器的各種運轉(zhuǎn)狀態(tài)進行智能遙測,將相關(guān)信息提供 給閉環(huán)控制邏輯;
? 基于業(yè)務數(shù)據(jù)進行建模,由英特爾智慧節(jié)能方案提供的 API 接口對時間序列數(shù)據(jù)快速執(zhí)行填充、縮放等操作,并開展自動 特征生成;
? 實現(xiàn)超參數(shù)搜索,并根據(jù)預測目標檢索出更佳超參數(shù)集,優(yōu)化 模型和數(shù)據(jù)處理工序并形成時間序列預測模型;
? 使用這一模型對實時業(yè)務數(shù)據(jù)進行推理(或進行效果評估和優(yōu) 化),獲得最終的處理器占用率預測數(shù)據(jù);
? 根據(jù)預測數(shù)據(jù)來進行基于 AI 的智能控制,使得 C/UFreq 緊密 跟隨工作負載變化,在節(jié)省更多功耗的同時,時延性能可以滿 足業(yè)務工作負載的 SLA 需求。
在前期,中國聯(lián)通與英特爾針對 5GC 網(wǎng)元業(yè)務應用場景進行測試。如今,雙方又針對大數(shù)據(jù)業(yè)務進行方案部署與測試驗證。在 中國聯(lián)通大數(shù)據(jù)業(yè)務中,工作負載隨時間有著明顯的波動,波峰 波谷差異較大,通過在波谷時采用節(jié)能措施,有望實現(xiàn)較為顯著 的節(jié)能效果。
基于上述特征,中國聯(lián)通設計了基于英特爾智慧節(jié)能方案的節(jié)能 原型。該原型從批處理業(yè)務場景入手,首先利用負載峰谷時的場 景特征,通過在波峰時使用默認高性能配置,波谷時使用自動低 功耗配置,并根據(jù)需要設置 CPU cfreq 和 ufreq 等手段,達到節(jié)能效果。
測試數(shù)據(jù)如圖所示,英特爾智慧節(jié)能方案比基準方案節(jié)能 28.6%5。這在很大程度上是由于英特爾智慧節(jié)能方案能夠支持 Cfreq 自適應調(diào)節(jié),而基準方案則一直保持高頻,因此前者耗能遠低于后者。
推衍到整體云資源池中,這一舉措預計每年可直接節(jié)電數(shù)千萬度,再加上數(shù)據(jù)中心既有 PUE 方案帶來的節(jié)能降耗,預計每年 可減少二氧化碳排放數(shù)萬噸。
展望 基于英特爾智慧節(jié)能方案的中國聯(lián)通節(jié)能減排策略實現(xiàn)了預期的成效,在不對數(shù)據(jù)中心進行硬件改造的前提下,雙方顯著降低了 5GC 網(wǎng)元、大數(shù)據(jù)業(yè)務中的服務器能耗,同時滿足業(yè)務工作負 載的 SLA 級別。得益于服務器的節(jié)能減排,并疊加其他節(jié)能措 施,中國聯(lián)通能夠大范圍、更大規(guī)模地提升節(jié)能減排水平,助力綠色數(shù)據(jù)中心建設。英特爾還發(fā)布了 “英特爾綠色數(shù)據(jù)中心技術(shù)框架”,與客戶和產(chǎn)業(yè)鏈共同推動數(shù)據(jù)中心綠色可持續(xù)發(fā)展。在當前合作成就的基礎上,中國聯(lián)通與英特爾計劃開展進一步合作,持續(xù)增強節(jié)能水平,合作方向包括:
? 將英特爾智慧節(jié)能方案擴展到更多的業(yè)務場景,助力中國聯(lián)通 實現(xiàn)雙碳目標。
? 將節(jié)能范圍擴展到網(wǎng)絡、外設、數(shù)據(jù)中心環(huán)境等領(lǐng)域,盡可能 地降低數(shù)據(jù)中心整體能耗水平。
? 充分利用新一代英特爾? 處理器上的性能核和能效核策略,基于 工作負載對內(nèi)核進行高效調(diào)度,實現(xiàn)性能與能耗的卓越平衡。 ? 在對 CPU 能耗進行精準控制的同時,推動創(chuàng)新的節(jié)能技術(shù)在 GPU 等更多加速器中的應用。
? 強化實時學習、自動機器學習 (AutoML) 和增強學習等創(chuàng)新技 術(shù)的應用,進一步提升節(jié)能效果。
通過上述合作探索,英特爾將助力中國聯(lián)通形成更高效、更智能 的數(shù)據(jù)中心能耗管理策略,顯著提升節(jié)能減排水平,更快更好地 將構(gòu)建新型數(shù)字信息基礎設施行動計劃落到實處。
評論