美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗

作者：時間：2023-12-07 來源：Micron美光科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

美光云計算高級業(yè)務(wù)發(fā)展經(jīng)理 Eric Booth 90 歲的祖母患有嚴重的聽力障礙，即使佩戴助聽器也很難聽清別人在說什么。Eric 注意到，她需要湊近講話者，識別他們的唇語，努力理解他們的話語。而當(dāng)多人進行交談時，她常常會感到迷茫。

本文引用地址：http://2s4d.com/article/202312/453661.htm

Eric 萌生了一個想法：

為何不用祖母的智能手機幫她來“傾聽”呢？

他打開手機的記事簿功能，按下麥克風(fēng)按鈕，向她展示了手機如何將他的話轉(zhuǎn)錄成屏幕上的文字。

他表示：“我的祖母非常興奮，笑得合不攏嘴，她現(xiàn)在可以參與到從前無法進行的對話中?！边@也讓我們看到了該技術(shù)如何切實改善了言語、語言和聽力障礙者的生活質(zhì)量。”

將語音轉(zhuǎn)化成文本的技術(shù)看似簡單，卻很容易被忽視。事實上，它的演變過程十分復(fù)雜，歷經(jīng)幾十年的發(fā)展才達到現(xiàn)有水平。

快速發(fā)展的技術(shù)

距第一臺語音識別 (SR) 設(shè)備 Audrey 的問世已經(jīng)過了很久。1962 年，貝爾實驗室推出了 Audrey，當(dāng)時這臺約 2 米高的計算機只能識別個位數(shù)字，且無法輸出文字。它會根據(jù)說出的數(shù)字閃爍相應(yīng)次數(shù)的燈光，例如聽到“9”時閃爍九次。

甚至幾年前，SR 技術(shù)還不方便用戶使用：它難以準確識別聲音，無法過濾即使最輕微的環(huán)境聲，轉(zhuǎn)錄速度也很慢。彼時，SR 技術(shù)想真正融入日常生活，還有很長的路要走。

如今，人工智能、虛擬助理技術(shù)、5G 蜂窩技術(shù)與內(nèi)存、存儲和計算機處理技術(shù)的進步使 SR 成為可能，幫助我們實現(xiàn)許多從前做不到的事情：比如用陌生的語言進行交流，即時轉(zhuǎn)錄長錄音，只通過語音就能訂購我們想要的任何東西并享受送貨上門。

生成式 AI 正進一步提升該技術(shù)。語音識別將音頻轉(zhuǎn)化為文字，而生成式 AI 則對文字進行處理，讓用戶真正理解其含義。SR 技術(shù)不再僅聚焦于識別說了什么？而是專注于理解這些話是什么意思？是在提問嗎？如果是，答案是什么？

這種類型的機器學(xué)習(xí)能根據(jù)用戶提示或?qū)υ拕?chuàng)建文本、視頻、圖像、計算機代碼和其他內(nèi)容。以語音識別為基礎(chǔ)的生成式 AI 將學(xué)習(xí)提升到了全新水平，賦能 SR 技術(shù)以進一步幫助言語和聽力障礙人士。

盡管靈活的語音識別可能會接收到不符合常規(guī)語音模式的語言，但生成式 AI 和自然語言處理 (NLP) 能理解并將其轉(zhuǎn)化為相關(guān)建議。這一過程使全面且高度個性化的語言治療方案成為可能。

Eric 的女兒曾接受語言治療，他深知其所需的時間和精力。這一經(jīng)歷促使他攻讀位于愛達荷州的博伊西州立大學(xué)的博士課程，以研究利用技術(shù)幫助語言障礙患兒的方法。

Eric 表示：“在語言治療中，過去我們認為治療師會給患者提供閱讀內(nèi)容并利用工具對他們的發(fā)音和吐字進行評分。但借助生成式 AI，我們能用工具來管理整個過程。生成式 AI 擅長識別各種語言模式，因此能更好地判斷出患者是否經(jīng)常發(fā)錯 O 音?！?/p>

大語言模型

不久前，語音識別還需依賴大型內(nèi)存服務(wù)器，并將收集到的全部數(shù)據(jù)上傳云端。而如今，語音識別功能已內(nèi)置在手機中，具有更快的計算速度和更大的內(nèi)存，過去需要數(shù)據(jù)中心處理的流程現(xiàn)在能夠直接在手機上進行。

AI 模型訓(xùn)練不僅能生成更復(fù)雜的模型，還可以將這些模型簡化，從而在手機或個人電腦等終端設(shè)備上運行。很快，生成式 AI 程序就會出現(xiàn)在您的手機或其他終端設(shè)備上。隨著大語言模型的快速發(fā)展，他們難以在云環(huán)境之外進行訓(xùn)練。然而，一旦模型通過訓(xùn)練并進行簡化后，就能轉(zhuǎn)移到終端設(shè)備上。

過去幾年，大語言模型取得了巨大進步。Eric 表示：“大語言模型擁有數(shù)萬億個參數(shù)，是實現(xiàn)生成式 AI 聊天機器人和高級搜索功能的關(guān)鍵。幾年前，萬億級的參數(shù)量難以想象，我們根本無法處理，而如今，這一數(shù)字已是基準線。當(dāng)然，模型越大，就越智能，這正是拉動計算和內(nèi)存需求的因素?！?/p>

NLP 和生成式 AI 需要大量大語言模型訓(xùn)練，其所使用的參數(shù)越多，所需的內(nèi)存容量就越大（見下圖）。

為了處理這些不斷擴大的模型，遷移學(xué)習(xí)越來越流行。該思路是在一個特定的環(huán)境中使用大量數(shù)據(jù)訓(xùn)練模型，然后對該模型的參數(shù)進行微調(diào)以適應(yīng)另一個具有較小數(shù)據(jù)集的環(huán)境。假設(shè)大的數(shù)據(jù)集是成人語音，小的數(shù)據(jù)集是兒童語音，遷移學(xué)習(xí)可以提供一個精準匹配兩個數(shù)據(jù)集的模型。而如果您想訓(xùn)練的模型是以成人語音為主，同時包括少量的兒童語音，那么準確性就會降低。在一種環(huán)境中進行大數(shù)據(jù)集訓(xùn)練，然后將數(shù)據(jù)微調(diào)并轉(zhuǎn)移到另一個具有較少數(shù)據(jù)的環(huán)境中，這一組合非常有效。Eric 在他的論文《評估和改進兒童定向自動語音識別》中闡釋了關(guān)于這方面的進展。

預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)遵循了同樣的思路，在一個任務(wù)或數(shù)據(jù)集上訓(xùn)練模型，然后將這些參數(shù)轉(zhuǎn)移到另一個任務(wù)或數(shù)據(jù)集上進行不同的模型訓(xùn)練。以 ChatGPT 為例，（ChatGPT? 中的“P”代表預(yù)訓(xùn)練），它通過大量互聯(lián)網(wǎng)對話數(shù)據(jù)進行了預(yù)訓(xùn)練，因此能夠回答常規(guī)問題，并能根據(jù)提供給它的額外語境來更好地適應(yīng)當(dāng)前對話。這為該模型發(fā)展提供了有利條件，避免了從零開始，因為您只需少量數(shù)據(jù)就能創(chuàng)建強大的模型。

如今，許多 AI 研究人員都專注于生成式 AI。這不僅源于 ChatGPT 所帶動的熱潮，還因為生成式 AI 在醫(yī)療保健和其他行業(yè)具有潛在的深遠影響。

為所需之人提供幫助

根據(jù)美國言語語言聽力協(xié)會 (American Speech-Language-Hearing Association) 的數(shù)據(jù)，美國有超過 100 萬兒童在學(xué)校接受專業(yè)的言語和語言障礙幫助。Eric 表示，總體而言，8% 的兒童存在語言發(fā)育遲緩或障礙問題。

“您當(dāng)前無法在市場上接觸到兒童言語治療技術(shù)。因為該技術(shù)尚未實現(xiàn)，但它尤為重要，尤其對低收入家庭的患兒而言?！盓ric 表示，對兒童進行治療評估至少需要兩小時，但美國政府可能只會承擔(dān) 30 分鐘的費用。

“電腦可以承擔(dān)很多工作，為治療師騰出時間來做更長遠的規(guī)劃和更有針對性的治療。”

學(xué)習(xí)障礙資源基金會 (Learning Disabilities Resources Foundation) 認為，患有學(xué)習(xí)障礙（如閱讀障礙）的兒童也可受益于語音轉(zhuǎn)錄文字技術(shù)。正如巧妙地利用語音轉(zhuǎn)錄文字技術(shù)幫助 Eric 的祖母參與到交談中，這項關(guān)鍵 AI 技術(shù)還有大量尚待開發(fā)和探索的應(yīng)用空間。

賦能生成式 AI 和SR 技術(shù)發(fā)展

如今，美光正在開發(fā)密度更高、速度更快的內(nèi)存和存儲，助力手機取代云端直接進行語言處理，以節(jié)省數(shù)據(jù)傳輸時間。

為了提升終端設(shè)備的性能，美光低功耗 LPDDR5X 內(nèi)存具有雙倍數(shù)據(jù)傳輸速率，可實現(xiàn)功耗與性能的平衡和流暢的用戶體驗。LPDDR5X 移動內(nèi)存采用了業(yè)界先進技術(shù)，峰值速度可達 8.533 GB/秒，較上一代產(chǎn)品提高 33%。LPDDR5X 的高速與高帶寬對于實現(xiàn)高性能終端生成式 AI 至關(guān)重要。

借助生成式 AI，SR 技術(shù)的處理速度和準確度逐漸接近人腦，但距離真正實現(xiàn)目標還存在較大困難，尤其是在處理兒童語言和發(fā)音問題，以及幫助聽力或語言障礙者。Eric 正在進行的研究能夠切實改善生成式 AI 技術(shù)，豐富全人類生活體驗。

生成式 AI 通過深度學(xué)習(xí)正在將語音轉(zhuǎn)化為更加自然的文字。過去，AI 模型擅長挖掘大量數(shù)據(jù)、識別模式、診斷并確定原因；如今，生成式 AI 能夠“讀取”文字，并通過數(shù)據(jù)推斷人類交流的語境。本質(zhì)上，生成式 AI 是在“訓(xùn)練”自己。為了做到這一點，AI 需要能同時訪問并獲取大量數(shù)據(jù)，并從海量內(nèi)存中提取數(shù)據(jù)以做出適當(dāng)?shù)捻憫?yīng)。美光正在積極推動這些技術(shù)進步。

美光高密度 DDR5 DRAM 模塊和 TB 級 SSD 存儲可提供超高速度與超高帶寬，滿足在數(shù)據(jù)中心訓(xùn)練生成式 AI 模型的需求。最新發(fā)布的第二代 HBM3 (HBM3E) 進一步提升了性能，容量擴大超過 50% ，帶寬超過 1.2 TB/秒，可將百萬億級參數(shù)的 AI 模型訓(xùn)練時間縮短 30% 以上。隨著這些技術(shù)的速度和準確度不斷提高，未來，更多的語言障礙人士將能進行正常的溝通，發(fā)出自己的聲音。

Eric 預(yù)測：“在不久的將來，我們將看到生成式 AI 和 SR 技術(shù)在性能上取得飛躍式發(fā)展。我很高興能看到這項技術(shù)不斷豐富全人類生活體驗。”

新聞中心

美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗

評論

相關(guān)推薦

技術(shù)專區(qū)