低功耗系統(tǒng)設(shè)計全方位解析：從硅片工藝到嵌入式軟件

作者：時間：2017-10-21 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　低功耗系統(tǒng)設(shè)計需要注意很多非傳統(tǒng)性因素，從硅片工藝技術(shù)，直到在微控制器嵌入平臺上運行的軟件。在系統(tǒng)級做仔細檢查可揭示出決定微控制器能效的三個主要參數(shù)：有源模式功耗；待機功耗；以及工作周期，后者決定了兩種狀態(tài)上所花時間的比率，而這個比率則取決于軟件的行為。

本文引用地址：http://2s4d.com/article/201710/367048.htm

　　低功耗待機狀態(tài)可以使一只微控制器看似非常高能效，但只有考慮了影響到有源功耗的所有因素后，才能證明其最終性能。

　　低功耗待機狀態(tài)可以使一只微控制器看似非常高能效，但只有考慮了影響到有源功耗的所有因素后，才能證明其最終性能。鑒于這個和其它原因，工藝技術(shù)、IC架構(gòu)以及軟件結(jié)構(gòu)之間的權(quán)衡就是一些決策問題，有一些微妙和有時無法預(yù)期的結(jié)果。一個MCU中各功能塊相互結(jié)合的方式，對整體能效有顯著的影響。即使硬件實現(xiàn)上看似微小的改變，也可能致使一個系統(tǒng)生命周期內(nèi)的總能耗發(fā)生巨大的波動。

　　低功耗應(yīng)用

　　舉例來說，讀表與報警系統(tǒng)，通常一節(jié)電池要供10年電。某只傳感器讀取功耗的少許增加（在產(chǎn)品的生命周期中，這種讀數(shù)動作要發(fā)生上億次），就可能使產(chǎn)品的實際現(xiàn)場壽命減少數(shù)年時間。一只簡單的煙霧警報器，每秒要探測一次空氣中的煙塵粒子，在其生命周期內(nèi)完成3.15億次讀取。

　　一只簡單煙霧報警器的活動比率（或工作周期）還相對算低的。每只傳感器讀數(shù)時可能花費時間不到數(shù)百毫秒就能完成，大部分時間花在當(dāng)MCU喚醒ADC以及其它敏感模擬元件時的校準(zhǔn)和安定上，以使它們達到一個穩(wěn)定的工作點。在本例中，工作周期是設(shè)計的關(guān)鍵，這個設(shè)計在約99.88%的時間中是處于不活動狀態(tài)。

　　傳統(tǒng)的煙霧警報器還算比較簡單。考慮一個更復(fù)雜的RF設(shè)計，它有一個傳感器網(wǎng)格，將讀數(shù)結(jié)果轉(zhuǎn)發(fā)給一個主控應(yīng)用。傳感器需要從一個主結(jié)點聆聽活動情況，這樣一方面可以通告說自己仍然在網(wǎng)格網(wǎng)絡(luò)中，或者將最新捕捉的信息發(fā)送給路由器。不過，增加活動可能并不影響整個工作周期；相反，采用更高性能的器件，可以在每次激活期間完成更多功能。由于更先進架構(gòu)與半導(dǎo)體技術(shù)，使得處理速度的增加成為可能，較快器件可以提供更高的能效，而較慢器件則要運行更長周期。重點在于了解工藝技術(shù)、MCU架構(gòu)，以及軟件實現(xiàn)之間的交互作用。

　　硅選擇

　　CMOS能耗數(shù)據(jù)。幾乎所有MCU的實現(xiàn)都使用了CMOS技術(shù)（圖1）。任何激活態(tài)下邏輯電路的功耗都可以用公式CV2f表示，其中C是器件內(nèi)開關(guān)電路路徑的總電容，V是電源電壓，而f是工作頻率。電壓和電容都是所采用工藝技術(shù)的因素。過去三十年以來，CMOS邏輯的芯片工作電壓已經(jīng)從12V降到不足 2V，原因是晶體管尺寸的縮小。鑒于電壓在有源功耗的公式中是一個二次項，因此電壓的降低有明顯的作用。

　　盡管電容項是線性的，但摩爾定律的縮小也非常有利于降低其整體水平。對于一個給定的邏輯功能，更先進的工藝可提供較低電容，從而獲得較前代更低的功耗。另外，先進的設(shè)計技術(shù)能夠?qū)崿F(xiàn)時鐘門控，這樣只有完成實際任務(wù)的電路才工作，從而降低了總體開關(guān)頻率。

　　與其它技術(shù)相比，CMOS顯著降低了浪費的能量；但是，泄漏電流仍然存在。與有源功耗相反，泄漏功耗會隨摩爾定律尺度的縮小而增加，在任何低功耗應(yīng)用中都要考慮它的因素，因為對于一個低工作周期系統(tǒng)，大部分時間是處于非激活狀態(tài)。但對有源功耗，電路設(shè)計就對實際泄漏有重要影響。與時鐘門控類似，電源門控可以大大改善泄漏的效應(yīng)，使更先進工藝結(jié)點成為低工作周期系統(tǒng)的較好選擇，盡管理論上較老工藝技術(shù)能夠提供更低的泄漏數(shù)值。

　　適合的工藝技術(shù)。對每組特性集合都存在著一種適當(dāng)?shù)墓に嚰夹g(shù)。答案并非簡單地取決于一種有最低理論泄漏值的工藝技術(shù)，因為器件在睡眠模式下花費的時間很多。在睡眠模式下，可以關(guān)閉MCU中大部分的電源，從公式中拿掉泄漏成份。當(dāng)電路活動時，泄漏是一個較大的問題，但先進晶體管的優(yōu)勢在于能以高得多的效率切換，從而可以輕易地抵消這個問題。

　　舉例來說，90 nm工藝的泄漏電流要比專用的低功耗180 nm工藝高出大約五倍。有源模式功耗要低四倍，但其基數(shù)是一個大得多的數(shù)值。

　　例如一個180 nm MCU，其有源耗電為40 mA，深度睡眠模式耗電為60 nA，與這些功率水平相比，90 nm實現(xiàn)的功率水平能夠?qū)⒂性春碾娊抵?0 mA，但睡眠模式電流較高，為300 nA.對90 nm實現(xiàn)來說，MCU必須在0.0008%的時間里為活動狀態(tài)，才能獲得更高的總體能效。換句話說，如果系統(tǒng)每天只活動工作1秒，則90 nm版的能效大約是其180 nm對手的1.5倍。結(jié)論是，在選擇工藝尺度時，關(guān)鍵在于了解應(yīng)用的工作周期（圖2）。

　　一旦選擇好了合適的工作技術(shù)，IC設(shè)計者就可以選擇進一步優(yōu)化能源性能。當(dāng)時鐘門控最初問世時，它只在一個相對粗糙的水平上使用。時鐘門控增加了一個系統(tǒng)的復(fù)雜性，因為電路設(shè)計者需要知道在任何確定的時間時，哪個邏輯路徑需要時鐘信號。

　　時鐘分配。大多數(shù)MCU實現(xiàn)都采用一種層次式結(jié)構(gòu)，將時鐘信號和相應(yīng)的電壓水平分配到IC的各個部分。各個功能單元（如指令處理塊與外設(shè)）被劃分為組，每組都饋給一個獨立的時鐘樹和電源網(wǎng)絡(luò)。一個分頻器或復(fù)用器從一個公共時鐘源獲得每一組的時鐘信號。同樣，如果這些組需要不同的電壓（這種方案日益普遍），則一組功率晶體管和穩(wěn)壓器會為每組外設(shè)提供電壓。

　　為盡量減少設(shè)計的復(fù)雜性，MCU采用了一種相對簡單的時鐘門控方法，只要一組中的功率單項均未激活，則會關(guān)斷整個時鐘樹。不過，這種方法會向那些在活動組中不工作的邏輯送入時鐘。例如，如果當(dāng)前指令是一個分支指令，CPU核心中的加法單元也會收到一個時鐘。如前所述，時鐘信號在加法器中觸發(fā)的轉(zhuǎn)換會使功耗增加CV2f倍。

　　設(shè)計工具與技術(shù)的進步已能夠使時鐘門控的粒度增加到某個點，如果外設(shè)或功率單元在該周期內(nèi)不工作，就不會收到時應(yīng)用的工作周期鐘信號。

　　電壓縮放提供了更進一步的節(jié)能潛力，它能在必要時，為特定一組功能單元提供一個較低的電壓。為一組功率單元或外設(shè)提供適當(dāng)電壓的關(guān)鍵在于片上穩(wěn)壓器或dc/dc轉(zhuǎn)換器的實現(xiàn)，以及監(jiān)控電路的使用，確保IC工作在所需要的電壓下。

　　電源的考慮。片上穩(wěn)壓器為系統(tǒng)設(shè)計者提供了更高的靈活性，從而能從一只電池榨取更多電能。例如，片上開關(guān)降壓轉(zhuǎn)換器（如Silicon Labs公司的SiM3L1xx MCU產(chǎn)品）可以從一只3.6V工業(yè)電池獲得輸入，以高于80%的效率將其轉(zhuǎn)換為1.2V.很多MCU沒有這種特性，而是采用線性元件降壓到合適電平，會有大量的消耗。在高級的實現(xiàn)中，當(dāng)電池放電到某個水平，轉(zhuǎn)換器無法做轉(zhuǎn)換工作時，降壓穩(wěn)壓器可以關(guān)閉。因此，電源可以在設(shè)備的整個生命周期上做到優(yōu)化能效，一切均在軟件控制下。

　　軟件的決策

　　性能的縮放。高能效嵌入應(yīng)用的實現(xiàn)有賴于軟件的設(shè)計，軟件要以最適當(dāng)?shù)姆绞绞褂糜布Y源。什么樣才是適合，這不僅取決于應(yīng)用，而且要看硬件實現(xiàn)。同樣，硬件越靈活（包括CPU、時鐘、電壓和存儲器使用），開發(fā)者可以獲得的節(jié)能潛力也越大。能感知硬件的軟件工具為嵌入系統(tǒng)工程師提供了更高的認知度，使他們能夠更多地了解到哪種更高節(jié)能是可實現(xiàn)的。

　　一種選擇是采用動態(tài)電壓縮放，如圖3和圖4所示。使該技術(shù)得以實現(xiàn)的是片上dc/dc轉(zhuǎn)換器與性能監(jiān)控電路，當(dāng)應(yīng)用不需要以最高速度執(zhí)行指令時，它們提供了降低電壓的能力。在這些情況下，系統(tǒng)就工作在較低的功耗下。最終的益處是一個輸入電壓的函數(shù)，可以在產(chǎn)品的生命周期內(nèi)變化。圖中顯示了無電壓縮放（VDD固定）、SVS（靜態(tài)電壓縮放），以及AVS（動態(tài)電壓縮放）之間的相對差別。

　　AVS有一個有意思的地方，這就是AVS策略可以根據(jù)系統(tǒng)輸入電壓而改變。在本例中，當(dāng)輸入為3.6V時，用一個高效的內(nèi)部dc/dc轉(zhuǎn)換器為內(nèi)部邏輯以及閃存供電，效率更高。但隨著在產(chǎn)品生命周期內(nèi)的電池放電，輸入電壓跌落，用輸入電壓為閃存子系統(tǒng)直接供電就成了更高效的方法，因為內(nèi)部邏輯可以工作在較閃存更低的電壓下。例如，Silicon Labs公司的SiM3L1xx系列MCU就有一個靈活的電源架構(gòu)，有六個獨立和可變的電源域，能夠?qū)崿F(xiàn)這種動態(tài)的優(yōu)化。

　　增加硬件塊（如DMA）可以進一步改變對能耗的折衷。

　　通常來說，CMOS邏輯電路工作得較慢，因為它們電壓低。如果應(yīng)用可以容忍較低的性能，則較低電壓可以因能耗中的二次項而獲得大的節(jié)能效果，例如常有這種情況，要處理的通信協(xié)議，其提交數(shù)據(jù)的速度不高于某種標(biāo)準(zhǔn)頻率。泄漏為電壓縮放提供了下限。如果每次運行花費時間太長，則泄漏就開始占據(jù)能耗方程的主要地位，從而增加了總能耗。因此，執(zhí)行一個功能越快越好，然后就使處理器回到睡眠模式，盡量減少泄漏成份。

　　考慮一個需要完成相當(dāng)多數(shù)字信號處理的無線傳感器應(yīng)用，例如玻璃破碎探測器。在本例中，應(yīng)用會通過一個快速富利葉變換來分析由音頻傳感器拾取的振動，其特性頻率來自于玻璃的碎裂。FFT比較復(fù)雜，因此，如要降低電壓而以較低頻率執(zhí)行這個變換，就會大大增加泄漏，

　　即使是采用較老的工藝技術(shù)。本例的最佳方案是以接近最高頻率運行這個變換，然后返回睡眠模式，直到要向主結(jié)點報告任何結(jié)果時。

　　不過，無線協(xié)議代碼會產(chǎn)生不同的要求。射頻協(xié)議要求事件有固定的時序。在這些情況下，協(xié)議可能要完全由硬件處理。這就使降低處理器核心電壓有了更大的意義。因此，需要做分組組裝與傳輸?shù)拇a要運行在適合于無線協(xié)議的速度。

　　增加硬件塊（如智能DMA）可以進一步改變能耗的折衷情況。很多DMA控制器都需要處理器的頻繁干預(yù)，如原生ARM Cortex-M3處理器所提供的DMA控制器。但更多智能DMA控制器能支持一種排隊與鏈接的組合，處理器就可以計算報頭、加密數(shù)據(jù)、分組組裝，然后以適當(dāng)?shù)拈g隔，將數(shù)據(jù)的傳送工作轉(zhuǎn)交給緩沖存儲區(qū)，供射頻前端使用。在射頻鏈路激活的大多數(shù)時間內(nèi)，處理器可以睡眠，節(jié)省大量能源。

　　存儲器使用。對于現(xiàn)代32 bit MCU，軟件工程師在存儲器塊的使用方式上有高度自由。通常MCU會提供一組存儲器，包括長期保存代碼和數(shù)據(jù)的非易失存儲器，以及存放臨時數(shù)據(jù)的 SRAM.多數(shù)情況下，訪問閃存的功耗要高于SRAM.對于正常使用情況，閃存讀取次數(shù)是SRAM讀取數(shù)的三倍。閃存寫入消耗的功率更多（需要將整塊擦除，然后用一個相對高電壓脈沖的漫長序列重新寫入）。但對于大多數(shù)應(yīng)用來說，閃存寫入操作并不頻繁，實際上不會影響到平均功耗。

　　閃存功耗的一個更進一步因素是如何分配來自處理器的存取。每個閃存塊都包含多個頁面，每個頁面的大小最多可達4k字節(jié)。要支持存取，每個頁面都必須加電；未被使用的頁面則可以維持在低功耗狀態(tài)。如果一個定期存取的代碼段要跨兩個閃存頁，而不是全在一個頁面上，則讀取指令相關(guān)的能耗就會增加。將跨不同頁面的頻繁存取代碼與數(shù)據(jù)在內(nèi)存中重新分配，就可以在一只電池的放電壽命期間節(jié)省不小的能量，而不必修改物理硬件。

　　通常有意義的是復(fù)制功能，它更多地使用片上SRAM而不是閃存，無論是讀還是寫，雖然這種方法看似是對存儲容量的低效使用。電池長壽命的優(yōu)點可以輕易抵消掉更多的內(nèi)存消耗。

　　代碼優(yōu)化。能量優(yōu)化亦可以顛覆傳統(tǒng)的代碼效率概念。幾十年來，嵌入系統(tǒng)工程師很注重針對存儲器大小來優(yōu)化代碼，除非性能是壓倒一切的指標(biāo)。能量優(yōu)化提供了另一種全新的度量標(biāo)準(zhǔn)集。一個重要的考慮是采用32 bit平臺上已經(jīng)普遍提供的片上緩存。

　　對代碼大小的優(yōu)化能夠在緩存中保存更多的可執(zhí)行代碼，從而提高了速度和節(jié)省了能耗。不過，函數(shù)調(diào)用與分支（可重新使用公共代碼，從而減少應(yīng)用的尺寸）會在同列緩存的代碼段之間造成不可預(yù)期的沖突。這樣當(dāng)需要從主內(nèi)存中獲取指令時，會造成浪費的“緩存顛覆”，以及多閃存頁激活。

　　在產(chǎn)品生命周期內(nèi)要頻繁工作的那些代碼，可以充分壓縮到能裝入緩存中，而不做分支或調(diào)用函數(shù)，這是有意義的。考慮一個煙霧報警器：即使報警器每周觸發(fā)一次（也許源于廚房活動所產(chǎn)生的過多煙氣），也僅是報警器十年壽命中3.15億次事件中的520個。絕大部分時間中，代碼只要讀一下傳感器值，然后發(fā)現(xiàn)其未超閾值，就讓處理器核心返回睡眠狀態(tài)，等待系統(tǒng)定時器的喚醒。

　　在警報器獲取的所有傳感器讀數(shù)中，只有不到0.0002%的情況才會執(zhí)行警報生成代碼。余下99.9998%的代碼執(zhí)行都是核心傳感器讀取循環(huán)；確保這個代碼直接在一個緩存列中執(zhí)行，就成為最低能量使用的關(guān)鍵。其它代碼由于運行得極少，可以使用更傳統(tǒng)的技術(shù)做優(yōu)化。

　　能效工具。對于MCU平臺的能效最大化，工具的支持十分重要。要將不同函數(shù)分配到閃存的不同頁，就需要這樣一種鏈接器，它能夠知道目標(biāo)MCU的存儲器詳圖。鏈接器可以獲得開發(fā)人員的輸入結(jié)果，看這個塊是否被分配在了跨頁邊界上，并生成已經(jīng)過非易性存儲最高能效優(yōu)化的二進制碼。

　　一般來說，這個代碼也用于確保函數(shù)與數(shù)據(jù)的放置方式，即最常執(zhí)行的部分不會跨多個緩存列。如果MCU供應(yīng)商提供了這類工具，則實現(xiàn)這種級別的細節(jié)要容易得多，因為他們了解每個目標(biāo)平臺的存儲器布局與功率需求。而第三方供應(yīng)商實現(xiàn)這工具則要困難得多。

　　MCU供應(yīng)商還詳細地了解不同外設(shè)與片上總線的組織方式。這一知識可以用于工具中，指導(dǎo)工程師做出不浪費功率的選擇。

　　提示

　　在工藝技術(shù)、IC架構(gòu)以及軟件結(jié)構(gòu)之間的權(quán)衡決策，可以得到微妙而有時是無法預(yù)期的結(jié)果。

　　電源門控可以減輕泄漏效應(yīng)，使更先進的工藝結(jié)點成為低工作周期系統(tǒng)的較好選擇。

　　片上穩(wěn)壓器為設(shè)計人員提供了更多靈活性，能夠從一只電池中榨取更多的電荷，而片上dc/dc轉(zhuǎn)換器與性能監(jiān)控電路則能實現(xiàn)動態(tài)的電壓縮放。

　　能感知硬件的軟件工具為嵌入系統(tǒng)工程師提供了更多認知能力，從而實現(xiàn)更高的節(jié)能。