英特爾、Habana Labs與Hugging Face推動Transformer業(yè)務在訓練和推理優(yōu)化及擴展取得關鍵進展

作者：時間：2022-12-12 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在過去的一年中，英特爾、Habana Labs和Hugging Face基于開源項目、集成開發(fā)者體驗與科學研究，不斷提升人工智能應用的效率并降低使用門檻，在創(chuàng)建和訓練高質量Transformer模型上取得了重大進展。

本文引用地址：http://2s4d.com/article/202212/441547.htm

Transformer模型為包括自然語言處理（NLP）、計算機視覺（CV）、語音等在內廣泛的機器學習和深度學習任務提供先進的性能。大規(guī)模訓練這些深度學習模型需要龐大的算力，這個過程非常復雜，不僅需要大量時間，而且成本高昂。

通過 英特爾顛覆者計劃（Intel Disruptor Program）與Hugging Face密切合作，能夠幫助用戶更廣泛地采用基于最新英特爾^?至強^?可擴展處理器、Habana Gaudi^?以及Gaudi^?2處理器優(yōu)化的訓練和推理解決方案。此次合作將英特爾AI工具包中先進的深度學習創(chuàng)新技術引入Hugging Face的開源生態(tài)系統(tǒng)中，并以此推動未來英特爾^?架構的創(chuàng)新發(fā)展，在英特爾至強平臺上的分布式調優(yōu)、內置優(yōu)化、配合Habana Gaudi加速訓練，以及小樣本學習方面均取得了重大進展。

當使用單節(jié)點CPU進行訓練速度不佳時，數據科學家們就需要分布式訓練。在分布式訓練中，集群中的每臺服務器都保留一個模型副本，利用訓練數據集的一部分進行訓練，并通過英特爾^?oneAPI集體通信庫（Collective Communications Library）在各節(jié)點之間交換結果，從而更快地收斂到最終模型。目前，Transformer可原生支持該功能，并使數據科學家們更容易地進行分布式調優(yōu)。

例如，在英特爾至強可擴展處理器的分布式集群上加速Transformer模型的PyTorch訓練時，為在PyTorch中能夠有效利用英特爾^?高級矩陣擴展（英特爾^?AMX）、AVX-512以及英特爾矢量神經網絡指令（VNNI）等最新英特爾至強可擴展處理器所支持的硬件性能，英特爾為PyTorch設計了英特爾擴展，該軟件庫可為訓練和推理提供開箱即用的加速功能。

此外，Hugging Face Transformer提供Trainer API，使用戶可以無需手動編寫訓練循環(huán)，更輕松地開始訓練。該Trainer為超參數搜索提供API，目前可支持多個搜索后端，其中包括可托管的超參數優(yōu)化服務英特爾SigOpt。得益于此，數據科學家們可以更有效地訓練并獲取最佳模型。

非凡的開發(fā)者體驗

Optimum是Hugging Face創(chuàng)建的一個開源庫，用于在日益增長的訓練及推理設備中簡化Transformer的加速。通過其內置的優(yōu)化技術和現成的腳本，初學者可以輕松地上手使用Optimum，而專家則可以通過不斷調整以獲得最佳性能。

“Optimum Intel”是Transformer庫與英特爾所提供的不同工具和庫之間的接口，用于加速英特爾架構上的端到端管線。該接口基于英特爾^?神經壓縮器所開發(fā)，為包括量化、剪枝、知識提取等多項網絡壓縮技術提供跨多個深度學習框架的統(tǒng)一體驗。此外，開發(fā)人員亦可使用Optimum Intel來進行針對評估數據集的模型指標對比，從而更加輕松地在Transformer模型上運行訓練后量化（PTQ）。

與此同時，Optimum Intel還提供了一個簡單的接口來優(yōu)化Transformer模型，并將模型轉換為OpenVINO的中間層表示（IR），從而使用OpenVINO進行推理。

利用Habana Gaudi加速訓練

現階段，Habana Labs正攜手Hugging Face更簡易、快速地訓練大規(guī)模、高質量的Transformer模型。得益于Habana的SynapseAI? 軟件套件與Hugging Face Optimum-Habana開源庫，數據科學家和機器學習工程師能夠通過在Habana Gaudi和Habana Gaudi2處理器上運行幾行代碼，加速Transformer深度學習的訓練。

Optimum-Habana庫支持各種計算機視覺、自然語言和多模態(tài)模型。其支持且經過測試的模型架構包括BERT、AlBERT、DistilBERT、RoBERTa、Vision Transformer、swin、T5、GPT2、wav2vec2和Stable Diffusion。Hugging Facehub上目前已有4萬多個基于這些架構的模型，而開發(fā)人員可以使用Optimum-Habana在Gaudi和Gaudi2上輕松地使用這些模型¹。

Habana Gaudi解決方案已經用于亞馬遜EC2 DL1實例，采用該解決方案進行訓練的一個主要優(yōu)勢是性價比。Habana Gaudi的性價比與同類訓練解決方案相比高40%，使客戶能用更少的成本進行更多訓練²，Gaudi2采用與第一代Gaudi相同的高效架構，同樣提供了卓越的性價比。

Habana DeepSpeed也集成在Optimum-Habana庫中，讓人們在使用DeepSpeed優(yōu)化的Gaudi設備時，能更易于大規(guī)模部署和訓練大型語言模型。您可以通過Optimum Habana DeepSpeed使用指南了解更多信息。

最新版的Optimum-Habana在Hugging Facediffusers庫中內置支持Stable Diffusion，使Hugging Face開發(fā)者能夠在Habana Gaudi上進行極具性價比的圖像生成測試。

生產中的小樣本學習

英特爾研究院、Hugging Face和UKP Lab最近推出了SetFit，這是一種用于對Sentence Transformer進行小樣本調優(yōu)的有效框架。使用預先訓練的語言模型進行小樣本學習，將有望解決數據科學家在現實中面臨的一大挑戰(zhàn)：處理那些幾乎沒有標簽的數據。

當前的小樣本調優(yōu)需要手工提示或描述器，將示例轉換為適合底層語言模型的格式。通過直接從少量有標簽的文本示例中直接生成豐富的嵌入，SetFit可省去提示。

研究人員設計了SetFit，可用于Hugging Face Hub上的任何Sentence Transformer，即通過調優(yōu)多語言檢查點，可以將文本分類為多種語言。

SetFit不需要像T5或GPT-3這樣的大模型來實現高精度。與標準調優(yōu)相比，它顯著提高了采樣效率并能夠更好地耐受噪聲。例如，對于在一個示例情感數據集上每類只有八個有標簽的例子，SetFit可以與在包含3000個例子的完整訓練集上的RoBERTa Large調優(yōu)相媲美。Hugging Face發(fā)現，在零提示且體積縮小27倍的情況下，SetFit也取得了與T-Few 3B相當的效果，從而實現了兼具低成本和高效的訓練³。

一直以來，英特爾致力于積極構建生態(tài)系統(tǒng)并助力降低AI成本，包括開源項目、集成的開發(fā)者體驗和科學研究等舉措。而工具和軟件恰恰能夠讓開發(fā)人員加快構建應用程序，并釋放處理器性能。英特爾旨在讓人們能夠更輕松地在任何地方構建和部署AI，使數據科學家和機器學習從業(yè)者能夠采用最新的優(yōu)化技術。

注釋：

¹ 基于Hugging Face搜索查詢：https://huggingface.co/models?other=or:bert,stable-diffusion-diffusers,albert,wav2vec2,vit,swin,t5,distilbert,roberta,gpt2。這個查詢會過濾所有已經測試、驗證并在Optimum-Habana中得到支持的Hugging Face模型。
² 基于AWS計算的價格和性能，對比了基于GPU的類似AWS實例。更多信息參見亞馬遜相關新聞稿：https://press.aboutamazon.com/2021/10/aws-announces-general-availability-of-amazon-ec2-dl1-instances
³有關性能的詳情參見完整論文：https://arxiv.org/abs/2209.11055 和博客文章：https://huggingface.co/blog/set