Facebook宣布全面轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)人工智能翻譯
語言翻譯是一股能夠讓人們組建群體和使世界更加緊密的力量。它可以幫助人們與在海外居住的家庭成員聯(lián)系起來,或者可以更好地了解講不同語言的人們的觀點。通過使用機(jī)器翻譯,自動翻譯文章和評論,以打破語言障礙,使得世界各地的人們可以相互溝通。
本文引用地址:http://2s4d.com/article/201708/362718.htm
即便體量大如Facebook,想要為20億使用的用戶創(chuàng)造無縫、高精確的翻譯體驗也是很困難的,這需要同時考慮上下文、俚語、打字錯誤、縮寫和語意。為了繼續(xù)提高翻譯質(zhì)量,Facebook團(tuán)隊最近宣布從基于短語的機(jī)器翻譯模型切換到基于神經(jīng)網(wǎng)絡(luò)的翻譯模型,來支持所有的后端翻譯系統(tǒng)。每個翻譯系統(tǒng)每天翻譯超過2000個翻譯方向和45億個翻譯。這些新模型能夠提供更準(zhǔn)確和更流暢的翻譯體驗,改善了人們在使用Facebook時,閱讀由非常用語言撰寫的內(nèi)容時的閱讀體驗。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論根據(jù)Facebook文章對相關(guān)情況編譯介紹如下。
使用上下文
Facebook以前使用的基于短語的統(tǒng)計技術(shù)確實有效,但它們也有局限性?;诙陶Z的翻譯系統(tǒng)的一個主要缺點是它們將句子分解成單個單詞或短語,因此在生成翻譯時,他們每次只能考慮幾個單詞。這種方法導(dǎo)致當(dāng)翻譯具有明顯不同字詞排序的語言時會出現(xiàn)翻譯困難的情況。為了彌補(bǔ)這個問題并構(gòu)建神經(jīng)網(wǎng)絡(luò)系統(tǒng),F(xiàn)acebook開始使用一種被稱為序列到序列LSTM(longshort-termmemory)的循環(huán)神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)可以考慮源語句的整個上下文以及到目前為止生成的一切內(nèi)容,以創(chuàng)建更準(zhǔn)確和流暢的翻譯。這樣當(dāng)遇到例如在英語和土耳其語之間翻譯字詞排列不同時,可以重新排序。當(dāng)采用基于短語的翻譯模型從土耳其語翻譯到英語時,獲得以下翻譯:
與基于神經(jīng)網(wǎng)絡(luò)的從土耳其語到英語的翻譯相比較:
當(dāng)使用新系統(tǒng)時,與基于短語的系統(tǒng)相比,BLEU平均相對增長了11%-BLEU是廣泛使用的用于判斷所有語言的機(jī)器翻譯準(zhǔn)確性的度量標(biāo)準(zhǔn)。
處理未知詞
在許多情況下,源語句中的單詞在目標(biāo)詞匯表中并沒有直接對應(yīng)的翻譯。當(dāng)發(fā)生這種情況時,神經(jīng)系統(tǒng)將為未知詞生成占位符。在這種情況下,可以利用注意機(jī)制在源詞和目標(biāo)詞之間產(chǎn)生的軟校準(zhǔn),以便將原始的源詞傳遞到目標(biāo)句子。然后,從培訓(xùn)數(shù)據(jù)中構(gòu)建的雙語詞典中查找該詞的翻譯,并替換目標(biāo)語句中的未知詞。這種方法比使用傳統(tǒng)字典更加強(qiáng)大,特別是對于嘈雜的輸入。例如,在從英語到西班牙語的翻譯中,可以將“tmrw”(明天)翻譯成“ma?ana”。雖然增加了一個詞典,BLEU得分只有小幅的改善,但是對于使用Facebook的人而言評分更高了?! ≡~匯量減少
典型的神經(jīng)機(jī)器翻譯模型會計算目標(biāo)詞匯中所有單詞的概率分布。在這個分布中包含的字?jǐn)?shù)越多,計算所用的時間越多。通過使用一種稱為詞匯減少的建模技術(shù),可以在訓(xùn)練和推理時間上彌補(bǔ)這個問題。通過詞匯減少,可以將目標(biāo)詞匯中最常出現(xiàn)的單詞與給定句子的單個單詞的一組翻譯候選相結(jié)合,以減少目標(biāo)詞匯的大小。過濾目標(biāo)詞匯會減少輸出投影層的大小,這有助于更快的計算,而且不會使過大的降低質(zhì)量。
調(diào)整模型參數(shù)
神經(jīng)網(wǎng)絡(luò)幾乎通常具有可調(diào)參數(shù),可以通過這些參數(shù)調(diào)節(jié)和控制模型的學(xué)習(xí)速度。選擇超參數(shù)的最佳集合對于性能是非常有幫助的。然而,這對于大規(guī)模的機(jī)器翻譯提出了重大的挑戰(zhàn),因為每個翻譯方向是由其自己的一組超參數(shù)的唯一模型表示。由于每個模型的最優(yōu)值可能不同,因此必須分別對每個系統(tǒng)進(jìn)行調(diào)整。Facebook團(tuán)隊在數(shù)月內(nèi)進(jìn)行了數(shù)千次端對端翻譯實驗,利用FBLearnerFlow平臺對超參數(shù)進(jìn)行微調(diào),如學(xué)習(xí)率,注意力類型和總體大小。這些超參數(shù)對一些系統(tǒng)有重大影響。例如,僅基于調(diào)優(yōu)模型超參數(shù),就可以看到從英語到西班牙語系統(tǒng)的BLEU相對值提高了3.7%。
用Caffe2縮放神經(jīng)機(jī)器翻譯
過渡到神經(jīng)系統(tǒng)的挑戰(zhàn)之一是讓模型以Facebook上的信息規(guī)模所需的速度和效率運行。因此Facebook團(tuán)隊在深入學(xué)習(xí)框架Caffe2中實現(xiàn)了翻譯系統(tǒng)。由于它的靈活性,因此能夠在GPU和CPU平臺上進(jìn)行訓(xùn)練和推理,來調(diào)整翻譯模型的性能。
關(guān)于培訓(xùn),該團(tuán)隊實施了內(nèi)存優(yōu)化,如blob回收和blob重新計算,這有助于更大批量的培訓(xùn),并更快地完成培訓(xùn)。關(guān)于推理,該團(tuán)隊使用專門的向量數(shù)學(xué)庫和權(quán)重量化來提高計算效率?,F(xiàn)有模式的早期基準(zhǔn)表明,支持2000多個翻譯方向的計算資源將會非常高。然而,Caffe2的靈活性和該團(tuán)隊使用的優(yōu)化模型使計算提高了2.5倍的效率,因而能夠?qū)⑸窠?jīng)機(jī)器翻譯模型應(yīng)用到實際中去。
該團(tuán)隊還遵循在機(jī)器翻譯中常用的在解碼時使用波束搜索的做法,以根據(jù)模型改進(jìn)對最可能輸出的句子的估計。利用Caffe2中的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)抽象的一般性來實現(xiàn)波束搜索,直接作為單個前向網(wǎng)絡(luò)計算,這樣就實現(xiàn)了快速有效的推理。
在這項工作的過程中,該團(tuán)隊還開發(fā)了RNN構(gòu)建塊,如LSTM,乘法集成LSTM和注意。這項技術(shù)將作為Caffe2的一部分分享出來,并為研究和開源社區(qū)提供學(xué)習(xí)素材。
正在進(jìn)行的工作
Facebook人工智能研究(FAIR)團(tuán)隊最近發(fā)表了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行機(jī)器翻譯的研究。Facebook代碼團(tuán)隊與FAIR密切合作,在不到三個月的時間里,完成了將這項技術(shù)從研究到首次投入生產(chǎn)系統(tǒng)中使用的流程。他們推出了從英文到法文和從英文到德文翻譯的CNN模型,與以前的系統(tǒng)相比,BLEU的質(zhì)量提升分別提高了12.0%(+4.3)和14.4%(+3.4)。這些質(zhì)量改進(jìn)讓該團(tuán)隊看到CNN將成為一個令人興奮的新發(fā)展道路,后面他們還將將繼續(xù)努力,利用CNN推出更多的翻譯系統(tǒng)。
目前機(jī)器翻譯剛剛開始使用更多的翻譯語境。神經(jīng)網(wǎng)絡(luò)開辟了許多與添加更多上下文相關(guān)的發(fā)展方向,以創(chuàng)建更好的翻譯,例如伴隨文章文本的照片。
該團(tuán)隊也開始同時探索可以翻譯許多不同語言方向的多語種模式。這將有助于解決與特定語言對相關(guān)的每個系統(tǒng)的微調(diào)的挑戰(zhàn),并且還可以通過共享培訓(xùn)數(shù)據(jù)為某些翻譯方向帶來質(zhì)量提高。
對Facebook而言,完成從短語到神經(jīng)機(jī)器翻譯的過渡,是一個里程碑,代表了為所有人提供他們常用語言下的更優(yōu)質(zhì)的Facebook體驗。他們還將繼續(xù)推進(jìn)神經(jīng)機(jī)器翻譯技術(shù),目的是為Facebook上的每個人提供人性化的翻譯。
評論