基于虛擬環(huán)繞聲的音頻處理器設(shè)計(jì)完整方案

作者：時(shí)間：2017-06-04 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://2s4d.com/article/201706/348707.htm

一、應(yīng)用前景

虛擬環(huán)繞聲技術(shù)是區(qū)別于多通道環(huán)繞聲技術(shù)的另一類聲重放系統(tǒng)，它利用聲源到雙耳的傳遞函數(shù)(HRTF)通過雙耳(即空間兩點(diǎn))聲信號(hào)的傳輸與重放，實(shí)現(xiàn)聲音空間信息的傳輸與重放，這種系統(tǒng)只需兩路獨(dú)立的傳輸信號(hào)和重放揚(yáng)聲器(或耳機(jī)) ，因而在一些不便于安裝多通道放聲系統(tǒng)的環(huán)境下，對(duì)改善電視機(jī)、手機(jī)、MP3/MP4等等電子產(chǎn)品的音頻聲效有很大的幫助。

二、項(xiàng)目背景

虛擬聽覺空間（VAS）是一門新興的邊緣交叉學(xué)科，涉及聽覺心理學(xué)、聽覺生理學(xué)、多傳感器集成與融合、人工智能、并行計(jì)算和高性能計(jì)算機(jī)系統(tǒng)等多個(gè)研究領(lǐng)域。VAS有時(shí)也稱為虛擬聽覺顯示(Virtual Auditory Display)、三維聲再現(xiàn)系統(tǒng)(3D Sound Rendering/Reproducing System)、虛擬聲再現(xiàn)系統(tǒng)(Virtual Sound Rendering/Reproducing System)、空間聲音再現(xiàn)系統(tǒng)(Spatial Sound Rendering System)、虛擬空間/三維聽覺系統(tǒng)(Virtual Spatial/(3D)Auditory Systems)、聲音空間化系統(tǒng)(Sound Spatialization System )和雙耳技術(shù)(Binaural Technology)等，是通過對(duì)雙耳的聲音信號(hào)進(jìn)行撿拾、模擬和重放，讓傾聽者在虛擬環(huán)境中聽到的聲信號(hào)逼近在真實(shí)環(huán)境聲場(chǎng)中聽到的聲信號(hào)，因而在電影院、家庭影院中得到了很好的應(yīng)用。其中多通路環(huán)繞聲經(jīng)過許多年的發(fā)展，也獲得了很好的效果，也先后出現(xiàn)了5.1、6.1、7.1甚至10.2通路的環(huán)繞聲系統(tǒng)，而且5.1通路環(huán)繞聲系統(tǒng)也為國(guó)際電信聯(lián)盟(ITU)所推薦。

此外，為了適應(yīng)音頻的播放，特構(gòu)建了一款音頻DSP處理器以適應(yīng)本系統(tǒng)。

三、項(xiàng)目立意

在耳機(jī)聲源定位算法的框架上，采用MIT媒體實(shí)驗(yàn)室的KEMAR人工頭HRTF數(shù)據(jù)庫(kù)對(duì)3D虛擬環(huán)繞聲的濾波器設(shè)計(jì)進(jìn)行改進(jìn)；

改進(jìn)通用處理器體系結(jié)構(gòu)，移植適合于音頻處理DSP IP Core到FPGA上；

利用硬件描述語言直接實(shí)現(xiàn)算法，并與DSP IP Core進(jìn)行集成；

在FPGA平臺(tái)上進(jìn)行IP核的設(shè)計(jì)，在Xilinx的FPGA平臺(tái)上予以驗(yàn)證，并對(duì)功耗和時(shí)鐘進(jìn)行優(yōu)化

四、原理和技術(shù)特點(diǎn)

1．本系統(tǒng)由以下三大部分構(gòu)成：

A.虛擬環(huán)繞聲模塊；B.DSP處理器模塊(包括了音頻解碼，音效疊加等模塊)；C.音頻還原?？傮w框圖大致如圖1所示，

圖1系統(tǒng)總體框圖

DSP音頻處理器是本系統(tǒng)的核心，負(fù)責(zé)音頻解碼，信號(hào)疊加等處理。虛擬環(huán)繞聲模塊，負(fù)責(zé)針對(duì)音頻信號(hào)產(chǎn)生虛擬的環(huán)繞聲音頻效果。DAC負(fù)責(zé)還原出音頻信號(hào)。在這些基本功能的礎(chǔ)基上，實(shí)現(xiàn)諸如音頻檢索等新功能。

2. 虛擬環(huán)繞聲原理介紹

由于虛擬環(huán)繞是以人耳的聲源定位為基礎(chǔ)的，故在此主要對(duì)人耳的聲源定位予以介紹。心理聲學(xué)的基本要素是到達(dá)人耳的聲音的頻率、強(qiáng)度和譜結(jié)構(gòu)。以下將進(jìn)一步討論基于心理聲學(xué)的聲源定位、距離感知及包圍感等。

2. 1 人耳對(duì)聲源的定位

在自然聽音中，人的聽覺系統(tǒng)對(duì)聲源的定位取決于多個(gè)因素——雙耳接收到的信號(hào)差異用來決定聲源的水平位置，由外耳對(duì)高頻信號(hào)的反射所引起的耳郭效應(yīng)決定聲源的垂直位置，而人耳的某些心理聲學(xué)特性對(duì)于聲源的定位也起到很大的作用。

2.2 雙耳效應(yīng)

在自然聽音環(huán)境中，雙耳信號(hào)之間的差異對(duì)于聲源的定位是非常重要的。該因素可以在直達(dá)聲場(chǎng)的聽音環(huán)境中得到最好解釋，如圖2所示。

圖2 聲源S與鏡像聲源S′引入最大程度相似的雙耳因素

聲源位于水平面上，水平方位角為θ，與人頭中心的距離為r，到達(dá)左右耳的距離分別為SL和SR。由于SL>SR，聲音首先到達(dá)右耳，從而在到達(dá)雙耳的時(shí)間先后上形成時(shí)間差。這種時(shí)間差被定義為雙耳時(shí)間差（interaural time difference，ITD），它與聲源的水平方位角θ有關(guān)。當(dāng)θ = 0°時(shí)， = 0；當(dāng)θ = ±90°時(shí)，達(dá)到最大值，對(duì)一般人頭來說，為0.6～0.7ms 的數(shù)量級(jí)。

在低中頻（f 1.5kHz）情況下，雙耳時(shí)間差是定位的主要因素，這時(shí)對(duì)固定頻率的聲音，雙耳時(shí)間差與雙耳相位差是相對(duì)應(yīng)的。然而對(duì)于更高的頻率，雖然雙耳時(shí)間差的概念依然正確，但雙耳相位差的概念將變得模糊不清。以正弦聲音為例來進(jìn)行解釋，設(shè)雙耳時(shí)間差的最大值為Δt_max，則角頻率為ω的正弦聲音在左、右兩耳產(chǎn)生的相位差為ΔΦ = ωΔt_max?？梢钥闯?，當(dāng)ω較小時(shí)，聲音頻率較低，波長(zhǎng)較長(zhǎng)，由時(shí)間差所造成的相位差有確定的意義，雙耳可以根據(jù)它來判定聲源的方位；當(dāng)ω較大時(shí)，即聲音頻率較高、波長(zhǎng)較短時(shí)，由時(shí)間差所形成的相位差數(shù)值將較大，甚至?xí)^180°，使人不能判斷是超前還是滯后，因而失去了作為聲源定位因素的意義。所以雙耳相位差只對(duì)低頻聲的方位判斷起主要作用，而雙耳時(shí)間差（嚴(yán)格說是群延時(shí)）則可作為1.5～4.0kHz的一個(gè)定位因素。

另外一方面，人頭對(duì)入射聲波起到了阻礙作用，導(dǎo)致了兩耳信號(hào)間的聲級(jí)差（interaural intensity difference，IID）。聲級(jí)差除與入射聲波的水平方位角有關(guān)外，還與入射聲波的頻率有關(guān)。在低頻時(shí)，聲音波長(zhǎng)大于人頭尺寸，聲音可以繞射過人頭而使雙耳信號(hào)沒有明顯的聲級(jí)差。隨著頻率的增加，波長(zhǎng)越來越短，頭部對(duì)聲波產(chǎn)生的阻礙越來越大，使得雙耳信號(hào)間的聲級(jí)差越來越明顯——這就是我們常說的人頭遮蔽效應(yīng)。對(duì)于1.5～4.0kHz的頻率范圍來說，聲級(jí)差和時(shí)間差是聲源定位的共同因素，而當(dāng)f > 5.0kHz時(shí)，雙耳聲級(jí)差是定位的主要因素，與時(shí)間差形成互補(bǔ)?？偟膩碚f，雙耳時(shí)間差和聲級(jí)差涵蓋了整個(gè)聲音頻率范圍。

但是如果只考慮雙耳時(shí)間差和聲級(jí)差兩個(gè)因素，還不足以完全解釋定位問題，其中最典型的問題就是前后鏡像聲源的定位。假設(shè)人頭是一個(gè)球體，不存在外耳，如圖3所示，水平方位角為θ的聲源和水平方位角為180°.θ的鏡像聲源在人耳處會(huì)產(chǎn)生相同的IID和ITD。對(duì)于實(shí)際的人頭來說，雖然IID和ITD不會(huì)完全相同，但是它們會(huì)在很大程度上相似。當(dāng)只考慮雙耳時(shí)間差和聲級(jí)差時(shí)，就會(huì)產(chǎn)生前后鏡像聲源的混淆，其實(shí)這只是空間錐形區(qū)域聲像混淆（cones of confusion）的一種特例。為了解決這個(gè)問題，就要依賴于其他的因素進(jìn)行聲源定位了。

圖3 空間錐形區(qū)域聲像混淆

2.3 耳郭效應(yīng)

在聽覺系統(tǒng)中用于對(duì)聲源進(jìn)行垂直定位的因素通常被認(rèn)為是“單耳信號(hào)”。耳郭具有不規(guī)則的形狀，形成一個(gè)共振腔。當(dāng)聲波到達(dá)耳郭時(shí)，一部分聲波直接進(jìn)入耳道，另一部分則經(jīng)過耳郭反射后才進(jìn)入耳道。由于聲音到達(dá)的方向不同，反射聲和直達(dá)聲之間強(qiáng)度比不僅發(fā)生變化，而且反射聲與直達(dá)聲之間在不同頻率上產(chǎn)生不同的時(shí)間差和相位差，使反射聲與直達(dá)聲在鼓膜處形成一種與聲源方向位置有關(guān)的頻譜特性，聽覺神經(jīng)據(jù)此判斷聲音的空間方向。耳郭效應(yīng)的本質(zhì)就是改變不同空間方向聲音的頻譜特性，也就是說人類聽覺系統(tǒng)功能上相當(dāng)于梳狀濾波器，將不同空間方向的聲音進(jìn)行不同的濾波。

頻譜特性的改變主要是針對(duì)于高頻信號(hào)，由于高頻信號(hào)波長(zhǎng)短，經(jīng)耳郭折向耳道的各個(gè)反射波之間會(huì)出現(xiàn)同相相加、反相相減，甚至相互抵消的干涉現(xiàn)象，形成頻譜上的峰谷，也即耳郭對(duì)高頻聲波起到了梳狀濾波作用。

耳郭效應(yīng)對(duì)聲源的垂直定位起到很重要的作用。圖4顯示的是聲源位于中垂面，仰角φ分別為.10°、0°和10°在人頭模型上測(cè)得的耳郭響應(yīng)曲線。由圖可以看出，在高頻處響應(yīng)曲線變化比較大，因此可以對(duì)聲源進(jìn)行定位。例如對(duì)位于前后鏡像的聲源進(jìn)行定位時(shí)，雖然位于(r , θ , φ)的聲源和位于(r , 180°.θ , .φ)的鏡像聲源會(huì)在人耳處產(chǎn)生極相似的ITD和IID，但是可以通過耳郭效應(yīng)對(duì)聲源作精確定位。

圖4 人頭模型測(cè)量的耳郭效應(yīng)

耳郭效應(yīng)進(jìn)行聲音定位，主要是將每次接收到的聲音與過去存儲(chǔ)在大腦里的重復(fù)聲排列或梳狀波動(dòng)記憶進(jìn)行比較，然后判斷定位。因每個(gè)人耳郭尺寸不同，所以每個(gè)人在大腦中存儲(chǔ)的記憶是不同的，這一點(diǎn)應(yīng)引起注意。

2.4 人頭轉(zhuǎn)動(dòng)因素

如圖5所示在低頻或較差的聽音環(huán)境中，當(dāng)雙耳效應(yīng)和耳郭效應(yīng)對(duì)聲源的定位不能給出明確的信息時(shí)，聽音者會(huì)轉(zhuǎn)動(dòng)頭部來消除不確定性。最經(jīng)常使用這種方法的情況是出現(xiàn)空間錐形區(qū)域聲像混淆現(xiàn)象時(shí)，因?yàn)檫@樣會(huì)造成不確定的雙耳效應(yīng)。

圖5 頭部轉(zhuǎn)動(dòng)避免聲源位置前后混淆

2.5 優(yōu)先效應(yīng)

聲音的定位除了以上因素外還有其他因素。在混響環(huán)境中，優(yōu)先效應(yīng)起到重要作用。它是心理聲學(xué)的特性之一。所謂的優(yōu)先效應(yīng)是指當(dāng)同一聲源的直達(dá)聲和反射聲被人耳聽到時(shí)，聽音者會(huì)將聲源定位在直達(dá)聲傳來的方向上，因?yàn)橹边_(dá)聲會(huì)首先到達(dá)人耳處，即使反射聲的強(qiáng)度比直達(dá)聲高達(dá)10dB。因此，聲源可以在空間中進(jìn)行正確的定位，而與來自不同方向的反射聲無關(guān)。但是優(yōu)先效應(yīng)不會(huì)完全消除反射聲的影響。反射聲可以增加聲音的空間感和響度感。

當(dāng)優(yōu)先效應(yīng)用在混響環(huán)境中識(shí)別語音時(shí)，就產(chǎn)生了哈斯效應(yīng)（Haas effect）。哈斯觀察到，只要早期反射聲到達(dá)人耳足夠早就不會(huì)影響語音的識(shí)別，相反，由于增加了語音的強(qiáng)度，還會(huì)有利于語音的識(shí)別。而且哈斯發(fā)現(xiàn)，相對(duì)于音樂來說，語音對(duì)反射延時(shí)時(shí)間和混響的變化更為敏感。對(duì)于語言聲來說，只有滯后直達(dá)聲50ms以上的延遲聲才會(huì)對(duì)語音的識(shí)別造成影響。所以50ms被稱為哈斯效應(yīng)的最大延時(shí)量。在哈斯的平衡實(shí)驗(yàn)證明，當(dāng)延時(shí)為10～20ms時(shí)，先導(dǎo)聲會(huì)對(duì)滯后聲有最大程度的抑制。

以上說明，只是對(duì)虛擬環(huán)繞聲的簡(jiǎn)單介紹，更詳細(xì)的介紹參見附見。

3.DSP音頻處理器結(jié)構(gòu)說明

由于本系統(tǒng)的音頻處理器主要以一款現(xiàn)在的音頻處理器為參考進(jìn)行開發(fā)，故對(duì)音頻處理器只作簡(jiǎn)單說明。

如圖6所示