一文抓住AI芯片趨勢 發(fā)布人:旺材芯片 時間:2024-04-07 來源:工程師 加入技術交流群 掃碼加入和技術大咖面對面交流海量資料庫查詢 發(fā)布文章 目前AI芯片的發(fā)展依然受到制約:第一個是深度學習需要海量數(shù)據(jù)進行計算,內存帶寬的制約,已經(jīng)成為整個系統(tǒng)的性能瓶頸。第二個就是海量內存和計算單元,訪問頻繁切換,導致整體功耗很難降下去。最后便是隨著AI產(chǎn)業(yè)的快速變化,硬件如何適配算法是個難題。這里預測一下AI芯片的4****展趨勢。未來10年是加速計算架構變革的新十年。在計算存儲一體化方面,也就是把計算單元和存儲單元放在一起,使得AI系統(tǒng)的計算和數(shù)據(jù)吞吐量增大,還能顯著地降低功耗。會不會出現(xiàn)一種新型非易失性存儲器件,就是在存儲陣列里面加上AI計算功能,從而節(jié)省數(shù)據(jù)搬移操作呢?現(xiàn)在硬件計算能力大于數(shù)據(jù)讀取和訪問性能,當計算單元不在是瓶頸,如何減少存儲器的訪問延時,將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結構也將應運而生。第二個趨勢就是,稀疏化計算。隨著千億、到萬億網(wǎng)絡模型提出,模型越來越大,但實際不是每個神經(jīng)元,都能有效激活,這個時候稀疏計算,可以高效減少無用能效。特別是在推薦場景和圖神經(jīng)網(wǎng)絡的應用,稀疏已經(jīng)成為常態(tài)。例如,哈佛大學提出了優(yōu)化的五級流水線結構, 在最后一級輸出了觸發(fā)信號。在Activation層后對下一次計算的必要性進行預先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點,則觸發(fā) SKIP信號,避免乘法運算的功耗,以達到減少無用功耗的目的。第三個趨勢是支持更加復雜的AI算子。在標準的SIMD基礎上,CNN的特殊結構復用,可以減少總線的數(shù)據(jù)通訊,Transformer結構對大數(shù)據(jù)在計算和存儲之間切換,或者是在NLP和語音領域經(jīng)常需要支持的動態(tài)shape,合理地分解、映射這些不同復雜結構的算子,到有效的硬件上成為了一個值得研究的方向。最后一個是更快的推理時延和存儲位寬。隨著蘋果、高通、華為都在手機芯片SoC上面推出AI推理硬件IP,近年來在手機SoC上,又引入可學習功能。未來如何在手機SoC上執(zhí)行更快是業(yè)界很關注的一個點,包括經(jīng)常看視頻的抖音、bilibili,都需要對視頻進行AI編解碼,基于ISP進行AI影像處理。另外在理論計算領域,神經(jīng)網(wǎng)絡計算的位寬從32bit到16bit,出現(xiàn)了混合精度到目前8bit,甚至更低的比特數(shù),都開始慢慢進入實踐領域。來源:芯生代 *博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。