快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動(dòng)語(yǔ)音識(shí)別服務(wù)
快手成立于 2011年3月,總部位于北京,是全球用戶利用短視頻或者直播形式記錄和分享日常生活的領(lǐng)先內(nèi)容社區(qū)和社交平臺(tái),每天產(chǎn)生上千萬(wàn)條原創(chuàng)新鮮視頻。
圖 快手 ASR 應(yīng)用場(chǎng)景
項(xiàng)目概述
自動(dòng)語(yǔ)音識(shí)別(ASR)是電子商務(wù)、短視頻、直播等眾多應(yīng)用的核心技術(shù)之一。ASR 在快手有許多的應(yīng)用場(chǎng)景,是快手 APP、直播、風(fēng)控、游戲等眾多業(yè)務(wù)的核心功能,尤其是在直播和短視頻應(yīng)用領(lǐng)域。 ASR流式自動(dòng)語(yǔ)音識(shí)別,已經(jīng)成為快手各種創(chuàng)新服務(wù)的核心技術(shù)之一。比如廣受主播們喜愛(ài)的直播間小快機(jī)器人 (語(yǔ)音助手),快手 APP 語(yǔ)音搜索、直播間語(yǔ)音輸入法、語(yǔ)音魔法表情、一甜相機(jī)實(shí)時(shí)字幕,以及最新上線的快影自動(dòng)字幕服務(wù)等等,為全球數(shù)億用戶帶來(lái)了前所未有的各種創(chuàng)新體驗(yàn)。
作為全球最受歡迎的直播和短視頻應(yīng)用平臺(tái)之一,快手全球平均每天有 3 億活躍用戶通過(guò)各種終端在快手平臺(tái)記錄和分享他們的生活或體驗(yàn)。面對(duì)如此龐大的規(guī)模用戶和應(yīng)用場(chǎng)景,快手希望能夠優(yōu)化其 ASR 服務(wù),滿足不斷增長(zhǎng)的客戶需求,并為他們提供更好的用戶體驗(yàn)。
用戶體驗(yàn)最重要的性能指標(biāo),就是時(shí)延和并發(fā)路數(shù)。致力于“圍繞快手核心業(yè)務(wù)打造技術(shù)護(hù)城河”的快手異構(gòu)計(jì)算中心,借助賽靈思Alveo?及相關(guān)工具套件,大幅提升了ASR 整體服務(wù)性能和用戶滿意度,成為國(guó)內(nèi)大規(guī)模網(wǎng)絡(luò)直播和短視頻應(yīng)用場(chǎng)景的ASR 典范。
項(xiàng)目挑戰(zhàn)
在快手之前基于CPU框架的處理流程中,特征提取等前處理模塊運(yùn)行時(shí)間占比約為 5%~10%, TDNN+LSTM 聲學(xué)模型運(yùn)行時(shí)間占比約為 60%~80%,而包含語(yǔ)言模型的解碼器部分運(yùn)行時(shí)間占比約為 15%~30%??焓之悩?gòu)計(jì)算中心,希望找到一個(gè)更合適的異構(gòu)底層器件,將最耗時(shí)的TDNN+LSTM 聲學(xué)模型轉(zhuǎn)移到這個(gè)器件上并進(jìn)行優(yōu)化。
快手異構(gòu)計(jì)算中心團(tuán)隊(duì)認(rèn)為,以 TDNN+LSTM 為主結(jié)構(gòu)的流式聲學(xué)模型優(yōu)化的關(guān)鍵痛點(diǎn)有三個(gè),那就是時(shí)延(Latency)、實(shí)時(shí)率(RTF,Real Time Factor)和并發(fā)數(shù)(Concurrency),具體而言需要解決如下問(wèn)題:
● 縮短時(shí)延,為用戶提供實(shí)時(shí)的流式語(yǔ)音識(shí)別ASR體驗(yàn);
● 提高并發(fā)數(shù),保障海量流式數(shù)據(jù)并發(fā)處理的帶寬需求;
● 提供靈活性及易用性,滿足現(xiàn)有多業(yè)務(wù)模型的特點(diǎn)。如可以同時(shí)運(yùn)行多個(gè)模型,可以多模型實(shí)時(shí)任意切換,且能滿足未來(lái)模型的升級(jí)換代;
● 降低單位算力成本,實(shí)現(xiàn)更低總擁有成本;
● 滿足AI 算法的高精度需求。
此外,快手對(duì)GPU 進(jìn)行了評(píng)估,發(fā)現(xiàn)其硬件使用率 (Utilization) 比較低,不能滿足RTF需求,SRAM 容量也無(wú)法滿足TDNN+LSTM模型高并發(fā)性的需求。至于主流的 ASIC,除了以上介紹的硬件使用率問(wèn)題外,還存在不支持 Kaldi 框架,定點(diǎn)實(shí)際只有 12bit 等問(wèn)題,很難滿足ASR優(yōu)化在精度上的需求。
綜上所述,快手技術(shù)團(tuán)隊(duì)認(rèn)為,滿足上述需求的理想的異構(gòu)器件平臺(tái),應(yīng)當(dāng)是一個(gè)可以全定制的專用平臺(tái),可以通過(guò)軟硬件協(xié)同設(shè)計(jì)確保精度符合各種不同業(yè)務(wù)的標(biāo)準(zhǔn)。
解決方案
快手異構(gòu)計(jì)算中心經(jīng)過(guò)評(píng)估后,決定選用賽靈思的Alveo U50LV加速器卡來(lái)優(yōu)化 ASR 服務(wù)。
Alveo U50 數(shù)據(jù)中心加速器卡基于賽靈思高性能 UltraScale+ 架構(gòu),采用了高效的 75 瓦小型封裝,而且配備了 100 Gbps 網(wǎng)絡(luò) I/O和高帶寬內(nèi)存。這些特性為快手的 ASR 解決方案提供了關(guān)鍵的低功耗、高帶寬、大 SRAM 內(nèi)存和小尺寸優(yōu)勢(shì)。而Alveo U50LV (Low Voltage)則是 U50 系列的低電壓版本,和標(biāo)準(zhǔn)電壓版本相比,功耗更低,散熱要求更少。
“我們認(rèn)為理想的 ASR 加速解決方案,是可以支持高帶寬、大 SRAM 和定點(diǎn)推斷的硬件平臺(tái),”快手異構(gòu)計(jì)算中心總監(jiān)劉凌志博士表示:“賽靈思的 Alveo FPGA U50LV 完全符合我們的要求?!?/p>
圖 快手各種器件選型比較
結(jié)合公司自研的定點(diǎn)通用推理框架和定點(diǎn) C 模型,快手基于Alveo U50LV 及賽靈思相關(guān) Vitis HLS 高層次綜合及 Vitis Design Flow,從算法、系統(tǒng)、軟件和硬件等多個(gè)關(guān)鍵層面對(duì)ASR 系統(tǒng)進(jìn)行了多方位的創(chuàng)新, 應(yīng)用了多項(xiàng)最先進(jìn)的優(yōu)化技術(shù):
圖 ASR系統(tǒng)整體架構(gòu)
算法層面:采用圖融合、圖優(yōu)化、圖同構(gòu)、圖分割,以及不重訓(xùn)的高精度量化技術(shù),在保證精度的同時(shí),有效的壓縮了模型,使之更有利于FPGA 計(jì)算效率的發(fā)揮;
系統(tǒng)層面:自研通用推理框架及適合FPGA的通用Host調(diào)度框架,支持多模型,模型可擴(kuò)展,自動(dòng)化部署,具有很強(qiáng)的易用性;
軟件層面:設(shè)計(jì)Batch機(jī)制,基于OpenCL的任務(wù)調(diào)度及負(fù)載均衡策略,實(shí)現(xiàn)了任務(wù)級(jí)的數(shù)據(jù)傳輸、kernel 計(jì)算等高效并行處理;
硬件層面:自定義基于超長(zhǎng)指令字的指令集架構(gòu),設(shè)計(jì)編譯器,并基于 Vitis? HLS高層次綜合優(yōu)化技術(shù),快速完成了高效的FPGA底層設(shè)計(jì)。和直接采用硬件描述語(yǔ)言(如 Verilog HDL)相比,HLS 技術(shù)在更高的抽象層次上使用 C/C++ 的語(yǔ)法描述硬件行為,不僅達(dá)到了和 Verilog 接近的效果,而且加速了各種優(yōu)化技術(shù)的實(shí)現(xiàn),將開(kāi)發(fā)時(shí)間從 3 個(gè)月縮短到 6 周。
優(yōu)化后的系統(tǒng)整體架構(gòu)如圖三所示:調(diào)度加速引擎的代碼框架 ( Host )接收輸入的語(yǔ)音數(shù)據(jù),經(jīng)過(guò)前處理、神經(jīng)網(wǎng)絡(luò)推斷和后處理過(guò)程,生成識(shí)別后的文本。其中黃色部分的神經(jīng)網(wǎng)絡(luò)推斷過(guò)程是卸載到Alveo 加速卡上來(lái)完成的。
成效
借助賽靈思 Alveo 加速卡及相關(guān)設(shè)計(jì)工具,快手最終實(shí)現(xiàn)了針對(duì) TDNN+LSTM 聲學(xué)模型的全定點(diǎn)推理硬件加速方案,全面優(yōu)化了ASR 服務(wù),實(shí)現(xiàn)了:
1.大幅減輕了CPU 的工作負(fù)載,將單臺(tái)服務(wù)器業(yè)務(wù)處理能力提升7.5倍;
2.大幅降低了端到端時(shí)延,平均縮短達(dá)37.67%;
3.大幅縮減了系統(tǒng)總成本,降至0.29 (相當(dāng)于總成本銳減71% )。
4.大幅縮短了開(kāi)發(fā)周期。通過(guò)采用OpenCL實(shí)現(xiàn)了與現(xiàn)有業(yè)務(wù)無(wú)縫集成,并借助 Vitis Design Flow將設(shè)計(jì)周期從3個(gè)月減少到6周。
這是 FPGA 在國(guó)內(nèi)大規(guī)模直播及短視頻自動(dòng)語(yǔ)音識(shí)別場(chǎng)景落地的首個(gè)成功案例,展示了快手各種創(chuàng)新應(yīng)用背后技術(shù)團(tuán)隊(duì)強(qiáng)大的實(shí)力。2021年中以來(lái),優(yōu)化的ASR 服務(wù)已經(jīng)在快手直播及短視頻應(yīng)用平臺(tái)廣泛部署,目前有數(shù)億用戶正在享受其所帶來(lái)的前所未有的語(yǔ)音識(shí)別體驗(yàn)。
評(píng)論