博客專欄

EEPW首頁(yè) > 博客 > Meta 可以通過(guò)腦電波猜測(cè)你聽(tīng)到了什么

Meta 可以通過(guò)腦電波猜測(cè)你聽(tīng)到了什么

發(fā)布人:傳感器技術(shù) 時(shí)間:2022-10-14 來(lái)源:工程師 發(fā)布文章

新的人工智能可以僅僅通過(guò)大腦測(cè)量猜測(cè)出正確的、被測(cè)者正在想象的單詞。


圖片



圖片


Meta 的研究科學(xué)家讓-雷米·金 (Jean-Rémi King) 告訴《時(shí)代》雜志,有許多不好的因素會(huì)剝奪某人的說(shuō)話能力——對(duì)這些受到影響的人來(lái)說(shuō),腦機(jī)接口可能是恢復(fù)溝通的關(guān)鍵。


“通過(guò)在患者大腦的運(yùn)動(dòng)區(qū)域放置一個(gè)電極,我們可以解碼活動(dòng)并幫助患者與世界其他地方交流,”King 說(shuō)。


大腦植入物使用這樣的方法恢復(fù)癱瘓患者的交流能力:神經(jīng)植入物不需要指向單個(gè)字母或單詞,而是將他的想法直接轉(zhuǎn)化為單詞。


圖片


患有 ALS 的澳大利亞人 Phiip O'Keefe 擁有一個(gè)腦機(jī)接口芯片,可以讓他將自己的想法轉(zhuǎn)化為文本,從而打開(kāi)了包括Twitter在內(nèi)的整個(gè)電子通信世界。此外,一名 ALS 進(jìn)展為完全閉鎖綜合征的患者也接受了一種允許交流的植入物。 


Meta 的研究人員正在構(gòu)建用于在大腦中解碼語(yǔ)音的 AI 模型。


“但是將電極放入某人的大腦中顯然是極具侵入性的?!?King 說(shuō)。 


(在 O'Keefe 的案例中,值得注意的是,植入物是通過(guò)他的頸靜脈進(jìn)入的,因此他不需要進(jìn)行開(kāi)顱手術(shù),盡管這是一項(xiàng)重大手術(shù)。)


“所以我們想嘗試使用非侵入性的大腦活動(dòng)記錄。最終目標(biāo)是建立一個(gè)人工智能系統(tǒng),可以解碼大腦對(duì)口述內(nèi)容的反應(yīng)?!?/span>


Facebook 人工智能研究 (FAIR) 實(shí)驗(yàn)室的 King 和他的同事已經(jīng)開(kāi)始這樣做,他們創(chuàng)造了一種深度學(xué)習(xí) AI,能夠在一定程度上從腦電波中解碼語(yǔ)音。


King 在Meta AI 的博客中寫(xiě)道,在他們目前作為預(yù)印本在線的研究中,該團(tuán)隊(duì)使用了之前在 FAIR 創(chuàng)建的開(kāi)源算法來(lái)分析已經(jīng)存在的數(shù)據(jù)集。


這些數(shù)據(jù)集包含 169 名健康志愿者在聽(tīng)荷蘭語(yǔ)和英語(yǔ)有聲讀物時(shí)的大腦記錄,累積超過(guò) 150 小時(shí)。


圖片


由于目標(biāo)是非侵入性地解碼語(yǔ)音,因此該團(tuán)隊(duì)使用通過(guò)測(cè)量大腦的電活動(dòng)(腦電圖或 EEG)和磁活動(dòng)(稱為腦磁圖或 MEG)記錄的數(shù)據(jù)。


圖片


兩者都是通過(guò)頭骨外部的傳感器記錄的,這構(gòu)成了研究人員的主要挑戰(zhàn)之一,King 告訴時(shí)代周刊:數(shù)據(jù)的“嘈雜”程度受限于傳感器與大腦的距離,以及皮膚、頭骨、水等的影響,會(huì)導(dǎo)致信號(hào)質(zhì)量降低。所有這些噪音都變得更加難以消除,因此我們不能 100% 確定我們?cè)趯ふ沂裁础?/span>


“另一個(gè)大問(wèn)題更具概念性,因?yàn)槲覀儗?shí)際上在很大程度上不知道大腦如何代表語(yǔ)言?!盞ing 說(shuō)。


人工智能使用有聲讀物和大腦錄音,分析它們以研究聽(tīng)到的單詞和腦電波之間的工作模式。


這就是團(tuán)隊(duì)想要外包給人工智能的解碼語(yǔ)音的問(wèn)題,因?yàn)樗ㄟ^(guò)一個(gè)動(dòng)作來(lái)預(yù)測(cè)大腦活動(dòng)——這將決定,在這種情況下,一個(gè)對(duì)象會(huì)聽(tīng)到什么。 


圖片


如果沒(méi)有人工智能,“事情將很難說(shuō),‘好吧,這個(gè)大腦活動(dòng)意味著這個(gè)詞,這個(gè)音素,或者一個(gè)行動(dòng)的意圖,或者其他什么?!盞ing 說(shuō)。


解碼語(yǔ)音:將這些時(shí)間分成三秒位后,他們將有聲讀物和大腦錄音提供給人工智能,人工智能對(duì)其進(jìn)行分析,嘗試發(fā)現(xiàn)模式。


據(jù)《新科學(xué)家》報(bào)道,該團(tuán)隊(duì)保留了 10% 的數(shù)據(jù)來(lái)測(cè)試他們的模型:使用從其他 90% 中學(xué)習(xí)到的模式來(lái)嘗試識(shí)別它從未見(jiàn)過(guò)的大腦記錄中聽(tīng)到的單詞。


“經(jīng)過(guò)訓(xùn)練,我們的系統(tǒng)執(zhí)行所謂的零樣本分類:給定一個(gè)大腦活動(dòng)片段,它可以從大量新音頻片段中確定這個(gè)人實(shí)際聽(tīng)到的是哪個(gè)片段。”King 在 Meta 博客中寫(xiě)道。“算法基于這種設(shè)計(jì)推斷出這個(gè)人最有可能聽(tīng)到的詞。”


具體來(lái)說(shuō),據(jù)《新科學(xué)家》報(bào)道,人工智能依靠其 793 個(gè)單詞的詞匯表來(lái)制作十個(gè)單詞列表,以粗略地解碼語(yǔ)音。


根據(jù)他們的預(yù)印本,當(dāng)使用三秒的 MEG 數(shù)據(jù)時(shí),人工智能能夠在 72.5% 的時(shí)間內(nèi)在前十名中得到正確的詞——在 44% 的測(cè)試中首先猜到它——而在 EEG 數(shù)據(jù)中則為 19.1%。 


圖片


人工智能能夠在高達(dá) 72.5% 的測(cè)試中提供包含正確單詞的答案列表。


不過(guò),倫敦帝國(guó)理工學(xué)院教授 Thomas Knopfel 告訴《新科學(xué)家》,該系統(tǒng)需要更多改進(jìn)才能真正用于語(yǔ)音解碼,并且懷疑 EEG 和 MEG(非侵入性方案)能否提供更準(zhǔn)確所需的精細(xì)細(xì)節(jié). 


“這是關(guān)于信息流的?!盞nopfel 告訴《新科學(xué)家》?!斑@就像試圖通過(guò)老式模擬電話調(diào)制解調(diào)器播放高清電影。即使在理想的條件下,有人戴著耳機(jī)坐在黑暗的房間里,只是在聽(tīng)音頻,大腦中也會(huì)同時(shí)發(fā)生其他事情。在現(xiàn)實(shí)世界中,腦海中只有一個(gè)想法獨(dú)立地發(fā)生完全不可能?!?/span>


然而,技術(shù)進(jìn)步可能會(huì)改變這一點(diǎn):一種稱為OPM的新型 MEG正在推動(dòng)可以從外部學(xué)習(xí)的范圍。


就他而言,King 告訴《時(shí)代》雜志,他們目前只對(duì)語(yǔ)音進(jìn)行解碼,以講述人們?cè)趻呙鑳x中聽(tīng)到的內(nèi)容。它還不是用于設(shè)計(jì)產(chǎn)品,而只是作為基礎(chǔ)研究和原理證明。

 

來(lái)源:中國(guó)信息通信研究院知識(shí)產(chǎn)權(quán)中心


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: Meta

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉