英特爾張宇：軟硬結(jié)合創(chuàng)新助力邊緣智能應(yīng)用落地

作者：時間：2023-07-19 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在最近上海WAIC期間，英特爾中國區(qū)網(wǎng)絡(luò)與邊緣事業(yè)部首席技術(shù)官、英特爾高級首席AI工程師張宇從邊緣人工智能的角度分析了行業(yè)的發(fā)展趨勢、面臨的挑戰(zhàn)以及英特爾在其中扮演的角色，以及英特爾在硬件和軟件方面的最新創(chuàng)新。

人工智能的發(fā)展一次又一次打破了人們對技術(shù)的認知。隨著行業(yè)數(shù)字化轉(zhuǎn)型，人們對于敏捷連接，實施的業(yè)務(wù)以及應(yīng)用的智能等方面的訴求，推動了邊緣人工智能的發(fā)展。相比于火熱的大模型，張宇博士坦言，邊緣人工智能目前絕大部分的應(yīng)用還處于邊緣推理階段。利用大量數(shù)據(jù)以及極大算力在數(shù)據(jù)中心訓(xùn)練一個模型，把訓(xùn)練的結(jié)果推送到前端去執(zhí)行一個推理操作，這是目前絕大部分在邊緣實現(xiàn)人工智能的使用模式。這種模式不可避免會限制模型更新頻率，但是很多智能行業(yè)對模型的更新實際上是有訴求的。

本文引用地址：http://2s4d.com/article/202307/448795.htm

張宇博士認為人工智能發(fā)展的第二個階段應(yīng)該是邊緣訓(xùn)練階段，但是邊緣訓(xùn)練并不是把數(shù)據(jù)中心的訓(xùn)練方法照搬到邊緣來進行實現(xiàn)。因為在邊緣來實現(xiàn)訓(xùn)練，有很多特定問題和特定挑戰(zhàn)需要解決。比如在智能制造領(lǐng)域或者是在自動駕駛領(lǐng)域?qū)崿F(xiàn)邊緣訓(xùn)練，執(zhí)行這些操作的人員往往是產(chǎn)線工人或汽車駕駛?cè)藛T。這些人員往往沒有人工智能經(jīng)驗，同時也沒有精力幫你做人工智能操作。

邊緣人工智能的發(fā)展，從歷史上來看，它應(yīng)該發(fā)展成三個階段：第一個階段是邊緣推理，第二個階段是邊緣訓(xùn)練，第三個階段是邊緣的自主機器學(xué)習(xí)。邊緣人工智能的發(fā)展實際上面臨著眾多的挑戰(zhàn)，除了前面提到的有關(guān)邊緣訓(xùn)練的挑戰(zhàn)以外，還有邊緣設(shè)備面臨的挑戰(zhàn)。由于提供的算力所能夠承載的功耗往往是有限的，所以如何在有限資源的情況下去實現(xiàn)邊緣的推理及訓(xùn)練，這對芯片的性能、功耗比提出了更高的要求。另外，邊緣設(shè)備的碎片化非常明顯，如何利用軟件很好地實現(xiàn)在不同平臺之間的遷移，實際上也提出了更多要求。

張宇直言，如果我們要邊緣實現(xiàn)邊緣訓(xùn)練，就需要有更加自動化的手段和工具去完成從數(shù)據(jù)標注到模型的訓(xùn)練，以及模型部署一整套完整的開發(fā)流程。他認為邊緣人工智能下一步的發(fā)展方向應(yīng)該是自主學(xué)習(xí)階段，也就是邊緣的auto machine learning。作為自主學(xué)習(xí)，人工智能應(yīng)該能夠感知人的意圖。根據(jù)人的意圖，它能夠設(shè)計一個合理的網(wǎng)絡(luò)模型結(jié)構(gòu)，或選取一個合理的人工智能網(wǎng)絡(luò)模型，然后自主選擇相應(yīng)訓(xùn)練數(shù)據(jù)集進行訓(xùn)練，再把訓(xùn)練結(jié)果自主推送到前端去執(zhí)行相應(yīng)推理操作，完成一整套自主化的過程。

人工智能的發(fā)展離不開算力，離不開數(shù)據(jù)，其實數(shù)據(jù)的背后又離不開通信技術(shù)以及存儲技術(shù)。應(yīng)該說推動本輪人工智能發(fā)展最核心的要素，實際上是計算、通訊和存儲技術(shù)的不斷提升。張宇博士介紹，英特爾作為一家數(shù)據(jù)公司，產(chǎn)品恰恰涵蓋了計算、通訊和存儲的各個方面。在計算方面，英特爾提供的是包括CPU、GPU、FPGA和各種人工智能加速芯片在內(nèi)的多種產(chǎn)品，來滿足用戶對于算力的不同要求。在硬件方面，考慮到邊緣人工智能對于算力、功耗、安全的不同要求，英特爾所采取的思路是同時推動通用處理器和通用GPU并舉的方案。在前端方面，我們會根據(jù)不同場景的要求選擇不同的產(chǎn)品組合，包括獨立顯卡、集成顯卡、CPU以及Habana。

英特爾有不同的計算資源可供用戶使用，但這需要考慮資源分配和調(diào)度問題。對于資源調(diào)度，需要一個統(tǒng)一的API接口，否則不同的資源調(diào)度都需要不同的接口，這是不經(jīng)濟的。因此，英特爾正在考慮如何在異構(gòu)平臺上合理分配負載，以進行人工智能處理。在底層方面，英特爾采用了OneAPI的思路，它基于DPC++編程模式，利用OneAPI提供的優(yōu)化庫，在英特爾硬件平臺上高效調(diào)用底層資源。這是英特爾在底層方面的戰(zhàn)略，并且是我們目前一直在進行的工作。

在上層調(diào)度方面，我們首先需要考慮資源分配的問題。對于大模型的訓(xùn)練，不同的應(yīng)用有不同的算法模型和算力要求，因此我們不能使用至強處理器來進行訓(xùn)練。目前，我們主要推薦使用專門為大模型訓(xùn)練設(shè)計的Habana Gaudi 2。在最近的MLCommons公開的AI評測中，只有英特爾和另一家友商展示了在大模型訓(xùn)練方面的良好性能，其中英特爾是其中之一。我們計劃不久將其引入中國，并發(fā)布相關(guān)活動，這對英特爾來說非常重要。

在軟件推理方面，英特爾提供的OpenVINO深度學(xué)習(xí)的部署工具套件，可以將開發(fā)人員在開放的人工智能框架上所設(shè)計和訓(xùn)練好的網(wǎng)絡(luò)模型交給OpenVINO，它可以幫助開發(fā)人員完成從建模到優(yōu)化到部署的開發(fā)過程。在建模方面，OpenVINO提供三百多個預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型。開發(fā)人員可以在模型基礎(chǔ)之上直接進行應(yīng)用的開發(fā)，或者在這些模型之上進行二次訓(xùn)練，加速模型的構(gòu)建速度。在優(yōu)化方面，OpenVINO使用的是網(wǎng)絡(luò)壓縮的技術(shù)，能夠?qū)⒛Ｐ驮诒ＷC精度的情況下進行簡化。其實網(wǎng)絡(luò)壓縮是一個很大的概念，里面包含了若干技術(shù)。除了量化的技術(shù)以外，還包括低比特等一系列的技術(shù)。在訓(xùn)練完成后，將訓(xùn)練結(jié)果傳遞給OpenVINO進行硬件平臺的適配。在OpenVINO的新版本中，它提供了Auto插件，用戶只需告訴OpenVINO自己關(guān)注的性能指標，如延遲或吞吐量，OpenVINO就能夠自動探測硬件類型并進行硬件配置，將工作負載下發(fā)到相應(yīng)的硬件上執(zhí)行人工智能操作。因此，我們希望通過OpenVINO來處理調(diào)度問題。

在調(diào)度之前，我們需要進行模型壓縮。壓縮不是普通的壓縮，而是根據(jù)使用場景、行業(yè)和關(guān)注特征等進行有針對性的優(yōu)化，以便于使用OpenVINO進行部署和分配硬件負載。因此，在底層方面，我們采用OneAPI來進行統(tǒng)一，而在推理方面，我們將利用OpenVINO來進行負載的分配。對于大模型的訓(xùn)練，我們將使用Habana Gaudi 2來完成。

新聞中心

英特爾張宇：軟硬結(jié)合創(chuàng)新助力邊緣智能應(yīng)用落地

評論

相關(guān)推薦

技術(shù)專區(qū)