VR中的聲音技術：如何聽到來自各個方向的聲音呢？

與物體本身發(fā)出的聲音相比，我們真正感知的聲音其實是受到了很多方面的影響的；而從音箱發(fā)出的聲音信號也會再一次受到聽者自身身體結(jié)構(gòu)的影響。如何在VR中還原這些“真實”，是一個大問題。

編輯或閃2016年08月03日 12時24分

希辰是一位——按照他在對自己的介紹中說的那樣——音頻工程師和聲音設計師。他的個人網(wǎng)站SounDoer主要關注的是聲音設計方面的話題，而希辰本人也搜集、編譯了不少國內(nèi)外有關聲音的資訊。

這個網(wǎng)站從2014年成立以來，就有不少內(nèi)容和話題關注了虛擬現(xiàn)實（VR）中的音響效果，希辰本人也談到，“隨著VR設備的普及和佩戴耳機的必要性，這些技術將會得到更為全面和廣泛的運用”。關于VR，一般我們可能更主要地還是關注了它在視覺方面的種種突破性，而忽視了它在聲音方面的設計和革新。為此，希辰就發(fā)布了一系列關于“科普：影視/游戲領域的虛擬現(xiàn)實音頻技術”的文章，到目前為止一共有3篇內(nèi)容了。觸樂最近聯(lián)系到了希辰，并獲得授權(quán)將這3篇內(nèi)容整合，轉(zhuǎn)載如下：

SounDoer 一直以來都在關注與虛擬現(xiàn)實（Virtual Reality，以下簡稱為 VR）相關的音頻技術，轉(zhuǎn)載并編譯了一些視頻和文檔。希望這些內(nèi)容對各位從事音頻工作的同行以及聲音愛好者們有所幫助。

聲音在很多媒介中都處于一種從屬性的地位，特別是在影視和游戲等娛樂媒體中，聲音通常需要服從和配合畫面的表現(xiàn)；最近在與一些從事 VR 相關開發(fā)的團隊接觸后，發(fā)現(xiàn)大家對于聲音在 VR 這個新媒體中的作用還不是很了解，或者是不太清楚該如何進行有關 VR 的聲音設計制作。所以借此機會，SounDoer 計劃寫一個名為The Introduction of Virtual Reality Audio for Films and Games（科普：影視/游戲領域的虛擬現(xiàn)實音頻技術）的系列文章，消化一下之前吸收的內(nèi)容。先來紙上談兵地聊一聊有關應用于影視和游戲領域的虛擬現(xiàn)實音頻技術（Virtual Reality Audio，以下簡稱為 VR Audio）。

■ 名詞解釋：3D Audio / VR Audio

大家對于3D電影、3D游戲等此類視覺效果上區(qū)別于傳統(tǒng) 2D 的媒體形式都非常熟悉。嚴格來說，3D電影和3D游戲中所指的3D（Three Dimensional）概念是有所不同的：3D電影的特別之處在重放效果，觀眾戴著特制的眼鏡在平面的銀幕上看出了3D效果，實際上是熒幕欺騙了你的眼睛；而3D游戲則是特別在其構(gòu)建的空間環(huán)境中，游戲中的人物視角可以全方位的變化，但其呈現(xiàn)方式依然只是平面屏幕，因為你用的還是傳統(tǒng)的顯示器。而目前采用HMD（Head-Mounted Display，頭戴式顯示設備）方式的VR技術，則感覺像是3D電影和3D游戲的技術結(jié)合。

總之，3D是一個大概念，很多東西都可以往里面裝；比如3D Audio就是一個裝了很多東西、常常讓人搞不太清楚的概念。那么，在說VR Audio之前，我們先來聊一聊3D Audio是什么。

順著上面提到的電影與游戲兩大媒體的特點，我是這么來理解3D Audio的：

就電影聲音的重放效果而言，廣義上來說，任何能夠提供多個方向性聲源信息的重放系統(tǒng)都可以稱為是某種程度上的“3D”。舉個例子，如果以最常見的雙聲道立體聲（Stereo）為基礎，那么5.1環(huán)繞聲的效果就要比雙聲道立體聲更加“3D”，而7.1環(huán)繞聲就要比5.1環(huán)繞聲更加“3D”，以此類推。隨著音箱數(shù)目的增加，環(huán)繞聲系統(tǒng)的聲音定位效果就會越來越好（當然實際情況是不允許無限制地增加音箱數(shù)目的，而且也有實驗論證存在上限值）。但無論如何，從狹義上來理解，5.1、7.1等環(huán)繞聲系統(tǒng)的音箱位置都是在同一高度的，即聽到的聲音都只能從同一平面?zhèn)鱽?，所以它們都是不符?D Audio中的三維定義的。

大家去杜比全景聲（Dolby Atmos）影廳看電影的時候可以留意一下，影廳天花板上也安裝了成對的音箱，這樣的話觀眾就能聽到來自頭頂?shù)穆曇袅?，比如飛機掠過的聲音。所以說，Dolby Atmos技術在重放效果而言，可以說是3D Audio的，但還是屬于“增加音箱數(shù)量”的環(huán)繞聲系統(tǒng)設計思路。（Dolby Atmos在制作手段上是有革新的，在現(xiàn)有Channel-Based的基礎上結(jié)合了Object-Based的方式，后續(xù)文章中可能會詳細解釋。）

說完了電影聲音的重放效果，我們再從游戲空間環(huán)境的角度來討論一下。以典型的FPS（第一人稱視角射擊）游戲為例，游戲內(nèi)的世界是一個真正的3D空間環(huán)境。與現(xiàn)實生活中一樣，游戲中的聲音也是從聲源處傳出的：比如，游戲中你的頭頂上有一架飛機飛過，飛機引擎的聲音就是從飛機處傳到你游戲中所在的位置的；再比如，當有敵人從背后朝你開槍時，那么槍聲就是從你身后傳到你所處的位置的。所以，單就從游戲內(nèi)空間環(huán)境的角度而言，目前的游戲音頻制作手段可以說是3D Audio的，游戲內(nèi)的聲音也幾乎是基于三維空間位置的音效（3D Positioning Sound）。

但是，為什么你打游戲的時候聽不出飛機從頭頂掠過的效果？為什么你沒法聽到敵人在你背后“突突突”？——這就要說到游戲的聲音重放了。以游戲主機端（PS4/Xbox ONE）的作品為例，目前大多數(shù)游戲的聲音輸出采用的是環(huán)繞聲系統(tǒng)，即上面提到過的5.1環(huán)繞聲系統(tǒng)，聲音也都只能在同一平面上傳播。所以，即使你用環(huán)繞聲系統(tǒng)的家庭影院來打游戲，你也沒法聽到頭頂上飛機的效果。并且實際情況是，大多數(shù)玩家用的是一對普通的立體聲音箱，或者一副耳機，甚至只是電視機上的小喇叭，那就更不用想能聽到來自頭頂和身后的聲音效果了。所以，從游戲聲音重放效果的角度而言，目前的游戲音頻其實并沒有那么的“3D”。在下面，我們也會結(jié)合一些運用在VR設備上錄音技術來說明這一點。

以上就是從電影和游戲兩個角度出發(fā)，對于3D Audio的一些理解。

相較而言，其實還有其他比3D Audio更恰當?shù)脑~，可以用來表述上面提到的聲音系統(tǒng)的特點：比如Spatial Audio/Sound（空間音效）、Immersive Audio/Sound（沉浸式音效）等。從最開始的單聲道發(fā)展到現(xiàn)在像杜比這樣的環(huán)繞聲系統(tǒng)，目的就是為了追求更好的沉浸體驗。而更加逼真的沉浸式體驗，其實也是VR技術的追求目標，所以Spatial Audio和Immersive Audio有時也會被用來形容與VR相關的聲音技術。（不過，在這個系列文章里討論的VR Audio，將會有更加明確的定義。）

那么 VR Audio 指什么？簡單描述一下就是，通過耳機重放的方式（或者音箱），結(jié)合頭部追蹤（Head Tracking）等技術，讓用戶在做轉(zhuǎn)動頭部等動作時能夠聽到來自各個方向的聲音（及其變化），并配合頭戴式顯示設備來獲得更好的沉浸式體驗。

■ 一些VR相關的錄音技術

雙耳錄音

雙耳錄音（Binaural Recording），通常也叫做人工頭錄音，是一種與普通立體聲拾音不太相同的錄音方式。

與物體本身發(fā)出的聲音（或者說聲源處的聲音）相比，我們真正感知的聲音其實是受到了很多方面的影響的。比如，軀干、頭部、耳廓、耳道等身體結(jié)構(gòu)就是一個很重要的影響因素，也是我們辨別聲源方向的生理基礎。所以雙耳錄音的思路就是，在聲音采集階段去還原由身體結(jié)構(gòu)（主要是頭部結(jié)構(gòu)）對原始聲音產(chǎn)生的影響：制作一個人頭模型（Dummy Head），把話筒（拾音振膜）分別置于左/右人工耳道中，以這樣的方式錄制得到模擬左/右耳聽到的聲音，并最終通過耳機重放。

在這里不能用音箱重放的原因是：從音箱發(fā)出的聲音信號會再一次受到聽者自身身體結(jié)構(gòu)的影響，聽起來就會很奇怪。

有關雙耳錄音的研究早在二十世紀六七十年代就已開始，Neumann公司在當時也推出過成熟的人工頭錄音產(chǎn)品（比如Neumann Ku 80/81）；YouTube等網(wǎng)站上也有很多雙耳錄音的視頻，比如非常有名的Virtual Barber Shop。

在我們現(xiàn)在討論的VR游戲和影視的制作中，雙耳錄音的作用是很有限的；因為以這種方式錄制下來的聲音是“固定”的，即它只記錄了當時特定地點、特定方向的聲音信號，無法滿足VR內(nèi)容中根據(jù)用戶運動而產(chǎn)生變化的需求。

HRTF（Head Related Transfer Functions）

HRTF，可直譯為“頭部相關傳輸/傳遞/轉(zhuǎn)換函數(shù)”?；谏鲜鰧﹄p耳錄音的解釋，HRTF可以簡單地理解為是“原始聲音與人耳實際接收到的聲音之間的差異”；而在實際運用中，HRTF可以想象成是一個濾波器，對原始聲音進行頻段上的調(diào)整，使其接近人耳接收到的聽感效果。

我們再從另一個大家可能有所了解的角度來描述一下HRTF：卷積混響（Convolution Reverb），或者叫采樣混響中使用的沖激響應（Impulse Response），這里的采樣是在實際的特定空間中錄制得到的；比較常見的方法有瞬態(tài)脈沖（氣球爆炸或發(fā)令槍聲等）和掃頻（用音箱播放一個從低頻到高頻的全頻段正弦波聲音信號），通過錄制得到的整個空間對于這些瞬態(tài)脈沖信號或掃頻信號的混響反應，再經(jīng)過處理之后就可以以卷積的方式應用到其他聲音上去。

而我們獲取HRTF數(shù)據(jù)的方式就與之類似：在消聲室（盡量減少空間環(huán)境的影響）中架設一個人工頭麥克風，從人工頭的各個不同方向播放沖激響應信號，并錄制下人工頭采集到的聲音，這樣就得到了與卷積混響中IR采樣概念類似的數(shù)據(jù)，可以叫做HRIR（Head Related Impulse Response）；將其與原始的IR信號進行對比，經(jīng)過處理之后就可以得到HRTF了。

Ambisonics

Ambisonics（目前好像還沒有通用的中文翻譯），是一種球形（Full-sphere）的環(huán)繞聲技術，研發(fā)于二十世紀七十年代?？梢栽囍鴱膬蓚€層面來理解：一是錄音制式，二是編解碼算法。

就從錄音制式來看，Ambisonics可以理解為是M/S立體聲錄音制式的三維擴展，以一定方式組合的四個振膜陣列記錄了具有高度和深度信息的四軌聲音信號。

從編解碼方式來看，采用 Ambisonics 方式錄制得到的聲音信號可以通過計算變換后，以雙聲道立體聲、5.1、7.1，甚至是11.1、22.2等各種多聲道環(huán)繞聲格式來輸出，即它不是基于頻道（Channel-based）的。

Ambisonics技術在VR領域的用處在于，可以作為一種音頻文件格式用于保存和流通；YouTube在年初推出的支持全景視頻的音頻格式就采用了Ambisonics技術。

Omni-Binaural Microphones / Ambisonic Microphones

在聲音素材采集方面，除了傳統(tǒng)的單聲道和立體聲麥克風之外，還有兩種較為特別的話筒可以用于VR內(nèi)容制作。

一是上面已經(jīng)提到過的Ambisonics話筒，比如CoreSound的TetraMic、TSL的SoundField SPS200等；還有更進階的產(chǎn)品，如Eigenmike Microphone這樣的球形話筒。

二是Omni-Binaural話筒，可以看做是人工頭麥克風的升級版本，比較典型的產(chǎn)品是3Dio的Omni Binaural Microphone。

綜上，其實目前用于VR音頻制作的軟硬件技術早已出現(xiàn)，只不過在此之前基于環(huán)繞聲系統(tǒng)（Surround Sound System）的各種技術、產(chǎn)品和制作流程太過成功，使得像雙耳錄音和Ambisonics這樣的技術少有用武之地。而現(xiàn)在隨著VR的興起，老技術借助自身特點煥發(fā)了第二春。

■ VR電影與VR游戲

通常，我們把影視稱為是“線性媒體（Linear Media）”，而游戲則是“非線性媒體（Non-linear Media）”或“交互媒體（Interactive Media）”；兩者各自的特性也決定了聲音設計思路和手段上的不同。

VR影視

首先，有必要再理清一下概念，接下來部分中討論的“VR影視”主要是指，“采用攝像機拍攝并后期拼接而成的全景視頻”；而真正實現(xiàn)可交互的 VR 電影，其制作過程中運用的技術手段則與 CG、游戲開發(fā)更為接近。另外，佩戴 3D 眼鏡觀看的 3D 電影，與全景視頻和可交互的 VR 電影是完全不同的。3D 電影是有“景深”的，模擬的是人眼成像方式，而全景視頻是把由多個攝像機拍攝而成的平面畫面拼接起來，效果就像是一個球形屏幕。

線性可以簡單地理解為是“基于時間線”的，即幾時幾分幾秒影片的畫面和聲音內(nèi)容都是確定的；從空間角度來看，在某一時刻里畫面展示的空間中，各個聲源與鏡頭之間的關系（或者說是與觀眾之間的關系）都是確定且唯一的。所以，在DAW中對影片進行聲音制作時，幾乎所有的參數(shù)（響度、頻率和混響等）調(diào)整和變化都是且只是基于時間的。

那么，VR影視與現(xiàn)有的傳統(tǒng)線性媒體相比，最大的區(qū)別是什么？雖然時間仍是線性的，但觀眾能夠在以攝像機為中心的位置上自主地選擇觀看的方向；實際的效果類似于博物館里的球形屏幕，只不過VR是通過頭戴式顯示設備（HMD）的方式來呈現(xiàn)。

如果是球形屏幕加上揚聲器的觀看方式，畫面內(nèi)容與揚聲器（對觀眾來說就是實際的聲源）之間的相對關系是確定的，那么聲音制作其實就跟平面顯示的影片沒有區(qū)別，都可以稱為是基于頻道（Channel-based）的方式。但如果是頭戴式顯示設備加耳機重放的方式，聲音的制作看上去就有點復雜了：如何在只有雙聲道立體聲輸出的耳機上聽到來自各個方向的聲音呢？

我們把這個問題拆分成兩部分：一是解決在制作時聲像位置怎么放，二是解決在重放時雙聲道耳機怎么聽。

先說聲像（Panning）：在制作雙聲道立體聲內(nèi)容時，聲像位置只能安排在兩只音箱之間的連線上，再加上可以通過對響度、頻率和混響等進行調(diào)整而營造出的距離感，因此實際的聽感是，聲音只能從由兩只音箱所夾范圍的平面區(qū)域內(nèi)傳出；類似地，5.1環(huán)繞聲系統(tǒng)比雙聲道立體聲多了中置音箱（C）和后置的左右音箱（Ls、Rs）（5.1低音揚聲器不用考慮），因此可以說，聲音能從五只音箱所決定的一整個平面區(qū)域內(nèi)傳出。

而為 VR 影視制作聲音時，為了能夠聽到來自更多方向的聲音，其實就是在以聽者為中心的整個球形區(qū)域內(nèi)來安排聲音的聲像位置；在確定某一方向基準后，畫面內(nèi)容與位于球形區(qū)域中心的聽者之間的相對關系也是確定的，這就跟上述的雙聲道立體聲、環(huán)繞聲定位方式差不多了，只不過多了聲音的在垂直方向上的高度信息。理論上，通過水平轉(zhuǎn)動（Pan）和垂直轉(zhuǎn)動（Tilt）兩個參數(shù)，就能控制視角在360度球形范圍的朝向；同樣地，這兩個參數(shù)也能用到對聲音的控制上，這樣就能讓聲音配合視角的朝向來做出相應的變化。

再說如何用耳機重放，運用到的是HRTF技術：當聽者朝向某一方向，來自各個方向的聲音與聽者頭部之間的關系是確定的，利用HRTF就能計算并模擬出聲音從某一方向傳來以及移動變化時的效果，并通過耳機來回放。

綜上，為VR影視制作聲音內(nèi)容時，還需要多考慮用于控制視角方向的水平轉(zhuǎn)動（Pan）和垂直轉(zhuǎn)動（Tilt）這兩個參數(shù)；不過對于聲音設計師來說，只要理解“在以聽者為中心的整個球形區(qū)域內(nèi)來安排聲音的聲像位置”這一點，就可以利用現(xiàn)成的插件工具來完成工作。（說不定以后Ambisonics聲像定位就會成為DAW中的一種可選設置？）

VR游戲

游戲被認為是“第九藝術”，可以看作是由許多自成體系的學科有機結(jié)合而成的；而游戲音頻作為其中一個重要的組成部分，依據(jù)游戲系統(tǒng)的架構(gòu)，其本身就包含了許多的子系統(tǒng)，比如 Voice、Music、UI、Ambiences、Foley、Weapons、Vehicle、Animals等。

3D游戲構(gòu)建的世界可以說是一個真正的3D空間環(huán)境：經(jīng)過空間定位（Spatialization）后的聲源在3D空間中都是有各自的位置坐標信息的，由此可以算出聲源到聽者（Listener/Camera）之間的距離，進而控制聲音衰減，來模擬聲音在傳播過程中的行為。從這一點來看，“在3D空間內(nèi)安排聲音信息”這一概念對游戲聲音設計師來說并不陌生。其實可以說，VR只是換了一種方式來顯示和操控游戲內(nèi)構(gòu)建的3D世界而已，用轉(zhuǎn)頭的動作來代替鼠標對鏡頭視角的控制，這并沒有影響到游戲的制作思路和主要流程。

而VR Audio帶來的改變主要體現(xiàn)在重放方式上。與影視媒體一樣，目前游戲的聲音重放方式主要是耳機和音箱（雙聲道立體聲和5.1環(huán)繞聲）。對于音箱重放的局限，本文上半部分已經(jīng)有過討論；而對于耳機重放，利用HRTF技術就可以實現(xiàn)全方位的聲音效果。

其實，與HRTF相關的技術早在游戲《反恐精英》時就已經(jīng)被運用了（A3D，Aureal 3-Dimensional），但為何現(xiàn)在的主流游戲里該技術的運用還是非常有限？原因可能有以下兩點：

一，實時的HRTF算法耗費計算資源，即使計算機運算速度在不斷提高，但對于消費級的計算機來說，有限的運算資源總是會先滿足圖像計算的需求，畢竟看比聽來得更重要一些。（《反恐精英》（CS）當時使用的A3D技術是由Aureal Vortex硬件聲卡來進行運算的。）

二，由于HRTF技術本身的特點，其聲音定位的準確度還有待提高；有些時候，實際效果可能還是環(huán)繞聲定位方式更好一些。

結(jié)束上面有關HRTF討論，其實VR有一個核心的追求就是“更加真實”，這對如何利用現(xiàn)有的技術和制作流程來創(chuàng)造出更加逼真的游戲聲音體驗提出了更高的要求。舉兩個例子：

一，以環(huán)境聲為例，常見的做法是用一個四聲道聲音作為環(huán)境聲鋪底，四條音軌分別映射到L、R、Ls、Rs四條聲道上；同時，加上在一定范圍內(nèi)隨機位置觸發(fā)的隨機音響效果來體現(xiàn)環(huán)境聲的方位感。在此基礎上，可以通過添加點、線狀的單聲道聲源的方式，來增加頭部轉(zhuǎn)頭時環(huán)境聲變化的豐富程度。

二，以動物為例，游戲里一只狗的腳步聲和叫聲其實都是從該模型上的同一個點（聲源）發(fā)出的。若想要聲源位置更加精確，特別是對于大型動物（或巨型怪物）來說，就應該把腳步聲的聲源綁定在四只腳上，而叫聲的聲源則綁定在嘴上。（這樣做的代價是計算量成倍地增加了。）

總的來說，較之以前，聲音的設計需要更加精細和精確。

（*文中圖片部分來自作者原本插入的圖片，部分由觸樂選擇加入。）