AI手語主播通過朱廣權(quán)魔鬼面試,殘影級手速無懼貫口,今已正式上崗助力冰雪盛會
本文經(jīng)ai新媒體量子位(公眾號 id:qbitai)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處
什么樣的手語主播能跟朱廣權(quán)battle得有來有回?
話不多說,咱直接板凳瓜子備齊,一起前排圍觀:
只見朱廣權(quán)語速起飛,妙語連珠,頻出“魔鬼”面試題,但這位手語老師完全沒在怕的:
如此表現(xiàn),不僅面試官朱廣權(quán)連連夸贊“精彩”,網(wǎng)友們也紛紛點贊。
沒錯,這位手語主播并非真人,而是一名來自百度智能云的虛擬數(shù)字人。
現(xiàn)在,她已正式上崗冰雪盛會,將在各類冰雪賽事中,為2780萬聽障人士提供24小時不間斷的手語服務(wù)。
雖然是初次上崗,但這位AI手語數(shù)字人的專業(yè)度不容小覷。
根據(jù)測評,其手語可懂度能達到85%以上,與主流的中英、中日機器翻譯結(jié)果相差無幾。
畢竟,“臺上一分鐘,臺下十年功”,為了給聽障人士們奉上這精彩的瞬間,AI手語數(shù)字人背后的程序員們,已經(jīng)下了不少苦工。
手語數(shù)字人背后的技術(shù)挑戰(zhàn)
在聊技術(shù)之前,或許你會好奇這樣一個問題,明明有字幕,為啥體育賽事等電視節(jié)目還需要手語解說?
實際上,由于種種現(xiàn)實因素的制約,比起文字,手語對聽障人士而言更加親切,也能更快速地傳遞信息。
因此,屏幕一角的手語翻譯,對于特殊人群而言其實是一個“更加平等享受資訊”的窗口。
這也就給AI手語數(shù)字人提出了一個本質(zhì)的技術(shù)問題:如何讓聽障人士能真正看懂?dāng)?shù)字人打出的手語?
乍一看,這就是個從語音到文本,從文本到手語符號,再到手語數(shù)字人動作的一個翻譯流程,但深究其背后的技術(shù)細節(jié),就會發(fā)現(xiàn)需要克服的難點要比表面看上去復(fù)雜得多。
首先,語音轉(zhuǎn)手語,并不是簡單地構(gòu)建一個語音到視覺的轉(zhuǎn)換模型就行。
單就語序而言,手語和自然語言之間就存在較大的差異。舉個例子,“我想回家”這樣一句話,用手語打出來的順序其實是“家 回 我想”。
并且,手語還有語言精簡的特性,手語的描述會對口語進行精簡。
也就是說,如果只是生硬地把口語中的詞匯轉(zhuǎn)換成手勢,再把動作簡單地連接起來,這樣打出的手語只能說是“半吊子手語”,聽障人士很難看懂。
其次,表情神態(tài)同樣是手語表達中極為重要的部分。
有時一個手勢代表好幾個意思,如果沒有表情和口型的配合,就可能產(chǎn)生誤解。
除此之外,還要考慮數(shù)據(jù)匱乏、數(shù)字人動作靈活度欠缺等種種問題。
總而言之,想要打造一個高質(zhì)量手語數(shù)字人,既需要語音、視覺、自然語言處理等AI技術(shù)同時發(fā)力,也少不了對于聽障人士真實需求的深入調(diào)研。
所以,這一次百度智能云的程序員們是如何成功讓AI手語主播具備助力冰雪盛會的實力的?
2個月,“做難而正確的事”
研發(fā)團隊接到手語數(shù)字人任務(wù)時,距離萬眾期待的冰雪盛會已僅剩不到2個月的時間。
但就是在這種幾乎沒有時間試錯的情況下,程序員們卻放棄了現(xiàn)成的手勢漢語語料。
正如前文所言,漢語到手勢的簡單轉(zhuǎn)換在很多情況下會讓聽障觀眾產(chǎn)生理解歧義,實際效果其實是大打折扣的。
為了“治本”,盡管面臨數(shù)據(jù)需要從頭采集標注、額外增加的成本難以預(yù)估的壓力,百度智能云團隊還是果斷選擇了自然手語語料:
做就做難而正確的事。
為此,百度智能云團隊聯(lián)合天津理工大學(xué),組織了上百位聽障學(xué)生做語料的數(shù)據(jù)標注,同時邀請手語語言學(xué)專家、特殊教育專家等專業(yè)人士,將大量行業(yè)知識融合到模型效果和聽障人群的體驗當(dāng)中。
打下了高質(zhì)量的基礎(chǔ),接下來,就是一步步解決手語數(shù)字人“聽得清”、“會翻譯”、“會表達”三個問題。
“聽得清”,要靠語音識別模型。
ASR語音識別方面,在NLP、語音領(lǐng)域有著逾10年積累的百度本身已具備成熟的解決方案,識別準確率能達到98%以上,還能hold住中英文混雜、生僻字、方言等特殊場景。
“會翻譯”,用上的就是手語翻譯模型。
與一般的語言翻譯模型不同,由于前文提到的手語表達中語言精簡等特性,手語翻譯模型需要著重考慮精準度和精簡度。
其中精準度影響到數(shù)字人手勢的精準,而精簡度會影響傳遞信息的及時性。
在高質(zhì)量數(shù)據(jù)資源和百度多年積累的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的基礎(chǔ)上,研發(fā)團隊設(shè)計了從中文文本到手語符號的翻譯方法。
通過大規(guī)模知識學(xué)習(xí)、中間件控制等手段,研發(fā)團隊成功在保障翻譯準確率的情況下縮減了譯文長度,實現(xiàn)了翻譯效果和時延的平衡。
2個月的時間里,經(jīng)過6次大的版本迭代,這一手語翻譯模型可懂度最終達到了85%以上,媲美主流的中英、中日等方向的機器翻譯結(jié)果,達到了業(yè)界領(lǐng)先水平。
最后,數(shù)字人的表達靠的是動作生成模型,包括手勢、口型、表情的生成。
針對手勢問題,研發(fā)團隊運用人體動作視覺識別技術(shù),讓AI學(xué)習(xí)手語視頻,將其中的二維骨骼點轉(zhuǎn)化為驅(qū)動三維數(shù)字人的手語動作,并且能夠精確到每一根手指。
基于此,百度智能云已經(jīng)建立起擁有近1萬個手語動作的強大動作庫。
而在口型和表情方面,研發(fā)團隊運用首創(chuàng)的4D掃描數(shù)據(jù)進行訓(xùn)練,對表情和口型進行精準校正,通過超10萬個全身多邊形面、超1萬個臉部面、超240個面部表情行變基、超100個身體骨骼界限,賦予了手語數(shù)字人自然生動的表情。
wink、吹泡泡都不在話下:
總體上,口型生成的準確度能夠超過98.5%。
“降低成本是虛擬數(shù)字人發(fā)展的關(guān)鍵”
說到這里,想必你也看出來了,百度智能云的程序員們能夠大膽挑戰(zhàn)更有難度的技術(shù)路線,與百度本身長期積累的AI技術(shù)、數(shù)字人技術(shù)不無關(guān)系。
實際上,在數(shù)字人的生產(chǎn)上,百度已經(jīng)把上述人像驅(qū)動技術(shù)、智能對話技術(shù)、語音交互技術(shù),以及智能推薦技術(shù)匯總到了其平臺級產(chǎn)品——百度智能云曦靈平臺上。百度智能云曦靈集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體,無論是虛擬員工這樣的服務(wù)型數(shù)字人,還是虛擬主持人、虛擬偶像這樣的演藝型數(shù)字人,都能基于該平臺一站式打造,甚至是“一句話生成”。
此前與馬斯克媽媽梅耶·馬斯克對話的百度集團數(shù)字人“希加加”:
能夠彈琴獻唱的“龔俊數(shù)字人”:
就都是基于百度智能云曦靈打造。
目前,百度智能云曦靈平臺已經(jīng)推出了3D寫實、2D寫實、3D卡通三條生產(chǎn)線,實現(xiàn)了****/保險、運營商、媒體/廣電、互娛/品牌商、MCN/藝人經(jīng)紀等全場景覆蓋,一站式打造“能聽、能說、能理解、可互動”的數(shù)字人。
這就大大加速了一個數(shù)字人從設(shè)計到落地的流程,有效降低了數(shù)字人生產(chǎn)的成本,為數(shù)字人的規(guī)模化應(yīng)用打下了基礎(chǔ)。
百度集團副總裁吳甜在參加央視《對話》節(jié)目錄制時還談到這樣的觀點:
降低成本是虛擬數(shù)字人發(fā)展的關(guān)鍵之一。百度希望通過領(lǐng)先的全棧AI能力,把虛擬人的生產(chǎn)周期縮短到小時級別,降低生產(chǎn)成本,并驅(qū)動生成內(nèi)容。
科技讓世界更公平
嚴格說起來,數(shù)字人并不算是全新的事物。
在過去幾年中,隨著AI等技術(shù)的成熟,以及短視頻、直播等新興媒介需求的涌現(xiàn),數(shù)字人正不斷涌現(xiàn)出新的面貌和新的應(yīng)用模式。
而從被提出到今天的廣泛落地,“數(shù)字人”這一科技熱詞,其實也已經(jīng)歷了好幾個認知階段。
第一階段,大家探討的重點是數(shù)字人“真不真”,這是新技術(shù)之初見。
當(dāng)技術(shù)落地的嘗試開始展開,第二階段圍繞“危機感”的討論便隨之而來:人們開始關(guān)注數(shù)字人是否會侵占掉人類的工作機會。
現(xiàn)在,或許我們對數(shù)字人的認知,又到了進入新階段的時候。
正如AI手語數(shù)字人讓冰雪賽事的魅力觸達到了更多人群,越來越多的落地案例正在說明,數(shù)字人作為一種提升服務(wù)效率的方式,并非在“替代”人類工作,而是在填補人力所不能及的空白。
這也正是科技背后真正的價值——并非取而代之,而是幫助人、做人所不能之事。而當(dāng)百度這樣的科技企業(yè),致力于降低技術(shù)的成本、加速技術(shù)的落地,體現(xiàn)出的亦正是科技工作者的社會責(zé)任擔(dān)當(dāng)。
從這個角度來講,前沿技術(shù)儼然不再冰冷和遙遠,而是真正在讓人類共同體變得更加公平和美好。
你覺得呢?
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
電子負載相關(guān)文章:電子負載原理