Facebook透露如何為AI和VR打造硬件
Facebook 正在打造下一代開源硬件,將新技術(shù)融入其數(shù)據(jù)中心平臺,Facebook使用大量強大科技——包括固態(tài)硬盤(SSDs), 圖形處理器(GPUs), 非易失性存儲器(NVM)和閃存簇(JBOFs)——以打造新的服務器和存儲裝置,加速基礎(chǔ)設施。
本文引用地址:http://2s4d.com/article/201604/289129.htm這些升級是Facebook打造強大數(shù)據(jù)中心網(wǎng)絡的一部分,這一網(wǎng)絡將擴展互聯(lián)網(wǎng)服務的邊界。
Facebook CEO 馬克·扎克伯格說。「這對計算性能提出了更高要求,通過開放計算項目(Open Compute Project,以下簡稱OCP),我們正在開發(fā)全球性的基礎(chǔ)設施,讓人人都能享受互聯(lián)網(wǎng)服務?!?/p>
Facebook在開放計算峰會(Open Compute Summit,以下簡稱OCS)上公布了項目進展。OCS是不斷擴大的開源硬件社區(qū)成員的聚會,他們設計的產(chǎn)品在Facebook的數(shù)據(jù)服務器上煥發(fā)活力。峰會展示了許多基礎(chǔ)設施的升級。包括:
重新打造的服務器尺度形態(tài)來在同等能源消耗數(shù)量下提升性能。
新的高性能數(shù)據(jù)分析服務器,由GPUs驅(qū)動,而非CPUs。
改進后的存儲設備分隔單位(storage sled),在這里,最初的JBOD(just a bunch of disks)變成快得多的JBOF(just a bunch of flash)。
改進非易失性存儲器(NVM)實驗,為存儲分層提供更多選擇。
此次峰會標志著OCP項目成立五周年,也促使人們反思自2011年Facebook為推動其發(fā)布的設計創(chuàng)新而成立該項目以來,OCP 的發(fā)展情況。
「我們現(xiàn)在取得的進步是值得關(guān)注的,」OCP 項目董事長Jason Taylor 表示,他同時也是Facebook Infrastructure 部門副總裁之一?!窸CP就是一個讓工程師聚在一起,創(chuàng)造驚艷產(chǎn)品的地方。」
「我感受到了巨大的動力,因為我們超越了超大型主機(hyperscale),還進入了金融和電信領(lǐng)域,」他說。
服務器:下一代設計
Facebook 徹底革新了服務器設計和基礎(chǔ)設施,從傳統(tǒng)的雙服務器處理器轉(zhuǎn)為基于單個英特爾Xeon-D處理器系統(tǒng)芯片(SoC),該處理器耗能更少,還解決了幾個架構(gòu)問題。
The Mono Lacke服務器的主板裝入到一個叫Yosemite的組裝單位中,Yosemite的每一個滑動單元底架上可以安裝4個SoC,即4個Mono Lake。Facebook 工程師Vijay Rao 和Edwin Smith在Facebook 工程博客上描述了這一新設計。
「我們就新處理器的設計與英特爾緊密合作,同時重新設計自家的服務器基礎(chǔ)設施以打造一個滿足我們需求的系統(tǒng),也能為行業(yè)其他公司所廣泛采用。」他們在博客中寫道?!附Y(jié)果表明,配備更低功耗的CPUs 的單處理器服務器在網(wǎng)絡負載上比雙處理器服務器表現(xiàn)更好,也更適合數(shù)據(jù)中心負載…與此同時,我們重新設計的服務器基礎(chǔ)設施,在同等電源基礎(chǔ)上,容納每個機架雙倍的CPUs數(shù)量?!?/p>
新的設計提升了處理器和處理器之間、處理器和內(nèi)存之間的通信效率。
「我們將CPU簡化至正好能滿足我們要求,」這兩位工程師表示,「我們移除了QPI鏈接,縮減了英特爾的成本。考慮到我們的服務器將基于同一的插槽,這也解決了我們NUMA問題。我們將其設計為整合芯片集的系統(tǒng)芯片,更加簡單。這種接口一致的CPU散熱設計功耗(TDP)更低。與此同時,我們重新設計的服務器基礎(chǔ)設施,在同等電源條件下,容納每個機架雙倍的CPUs數(shù)量。」
這使得Facebook制造出一個可以在每個機架上獲得更高性能的服務器體系結(jié)構(gòu),同時確保每個機柜能量消耗密度保持在11千瓦以下。
強大的人工智能數(shù)據(jù)分析服務器
Facebook 在會上還分享了GPUs最新進展,近年來,GPU在高性能計算中發(fā)揮了重要作用。GPUs 最初是用于提升桌面PC性能,處理圖形運算,但是現(xiàn)在卻幫助提升全球一些性能最強大的超級計算機。
Facebook 使用GPUs給人工智能和機器學習數(shù)據(jù)分析帶來更強大的計算能力。其人工智能實驗室訓練神經(jīng)網(wǎng)絡去解決新問題。這就需要強大的計算能力。
「我們已經(jīng)在人工智能技術(shù)方面投入了很多?!笷acebook 工程和基礎(chǔ)設施(Engineering and Infrastructure)部門 全球老大Jay Parikh說,「目前,人工智能應用于Facebook的Newsfeed,幫助我們提供更好的廣告服務。也能幫助用戶在日常生活中更安全地使用Facebook?!?/p>
Big Sur 系統(tǒng)使用了英偉達Tesla 加速計算平臺,擁有8個高性能GPUs,每個功率達300瓦特,在多個PCI-e連接之間靈活配置。Facebook已經(jīng)優(yōu)化了這些新型服務器的發(fā)熱和功耗控制,使其可以與數(shù)據(jù)中心中配備標準CPU的服務器協(xié)同工作。
Big Sur 系統(tǒng)優(yōu)化了性能和反應時間,幫助Facebook處理更多的數(shù)據(jù),極大地縮短了其訓練神經(jīng)網(wǎng)絡的時間。
「性能有了極大的提升,」Parikh說,「我們在數(shù)月間就部署了數(shù)千臺這種機器。使得我們有能力將該技術(shù)應用于公司更多的產(chǎn)品實例。」
評論