沉浸聲專題討論一：《沉浸聲—聲音情景的重構(gòu)與創(chuàng)造（上）》

來源：中國傳媒大學(xué) 編輯：ZZZ 2024-07-22 14:13:52 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機(jī):	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗(yàn)證碼:	不能為空驗(yàn)證碼錯誤

確定

隨著技術(shù)發(fā)展和時代進(jìn)步，近年來，沉浸聲這一概念成為了音頻界最為熱點(diǎn)的詞匯，并出現(xiàn)了眾多與之類似的稱謂，如全景聲、全向聲、3D音頻、空間音頻等。

沉浸聲——聲音情景的重構(gòu)與創(chuàng)造（上）

魏增來耿依楊徐曉軼

中國傳媒大學(xué)

　　摘要

　　沉浸聲技術(shù)是近年來音頻領(lǐng)域的熱點(diǎn)之一。本文首先解析了人耳聽覺感知的內(nèi)容和過程，指出“聲源特征”、“空間特征”及“個人特征”是影響聽覺感知的三個主要因素;此后從電聲重現(xiàn)聲音情景的發(fā)展歷程入手，探討了沉浸聲的基本概念，并結(jié)合影響聽感的三個要素，分析了沉浸聲通過耳機(jī)重放和揚(yáng)聲器重放這兩個主要實(shí)現(xiàn)手段的基本原理;在此基礎(chǔ)上，本文探討了沉浸聲用以重構(gòu)復(fù)刻和聯(lián)想創(chuàng)造聲音情景的這兩個主要用途;最后筆者分別從呈現(xiàn)感知層面和使用操作層面提出了當(dāng)前沉浸聲技術(shù)所面臨的主要問題，并對未來沉浸聲的發(fā)展目標(biāo)進(jìn)行了展望。

　　關(guān)鍵詞：

　　沉浸聲聲音情景聲源特征空間特征個人特征寫實(shí)還原寫意創(chuàng)造

　　正文

　　隨著技術(shù)發(fā)展和時代進(jìn)步，近年來，沉浸聲這一概念成為了音頻界最為熱點(diǎn)的詞匯，并出現(xiàn)了眾多與之類似的稱謂，如全景聲、全向聲、3D音頻、空間音頻等，但究其根本，如何理解這些名詞，到底什么樣的聲音又可以被稱之為沉浸聲呢，業(yè)界也存在一定的爭鳴。以此為背景，筆者嘗試從人耳聽覺感知入手，逐步梳理電聲化重現(xiàn)聲音情景的發(fā)展歷程，進(jìn)而對沉浸聲的定義及其用途進(jìn)行探索和討論。

　　一、人耳聽覺感知

　　所謂人耳聽覺感知，可以簡單理解為人對聲波產(chǎn)生行為反應(yīng)的過程。在日常生活中，具體表現(xiàn)為發(fā)聲體通過振動而產(chǎn)生的聲波，經(jīng)由空氣傳播到人耳，并在人耳結(jié)構(gòu)中完成一系列信號傳輸和轉(zhuǎn)換后，最終在大腦聽覺皮層形成有效信息的生物感知過程。盡管基于聲源、空間環(huán)境等“因”的不同，我們通過聽覺所能獲取到的“果”，即語義信息、聽感體驗(yàn)等也都不盡相同，但人類形成聽覺的過程和原理卻是一致的。當(dāng)談及聽覺感知時，首先需要明確兩個最為關(guān)鍵的問題，即“聽什么”和“如何聽”。

　　（一）“聽什么？”

　　當(dāng)人耳接收聲音信息時，主要有兩方面因素會對聽感產(chǎn)生影響，一是聲音元素，二是空間聲學(xué)環(huán)境信息。所謂聲音元素，泛指直接振動發(fā)聲的聲源，如人聲、樂器、物體撞擊、鳥鳴等。不同聲源有著不同的聲音特征，通?？捎身懚?、音調(diào)和音色來描述。以小提琴為例，每把琴、每次演奏的音量、音調(diào)以及相關(guān)的基波、諧波以及頻譜包絡(luò)等因素均有所不同，這些因素共同構(gòu)成了聲源的特征，而聲源特征的變化對聽覺感知產(chǎn)生的影響是不言而喻的。

　　此外，當(dāng)聲源處在某一空間中發(fā)聲時，其所表現(xiàn)出來的聲音將不可避免地受到該空間聲學(xué)環(huán)境的影響，例如由于界面的反射聲波而使聲源的響度加強(qiáng)并產(chǎn)生混響感等。同樣以小提琴為例，同一位演奏家在室外、音樂廳、大教堂、錄音棚、消聲室內(nèi)等不同場所使用同一把小提琴演奏相同曲目時，聽眾通過聽覺所捕獲的琴聲聽感肯定是不同的，甚至同一空間內(nèi)位于不同位置的聽眾所捕獲的聽感也有一定差異，因?yàn)槁犚粑恢貌煌瑫r，直達(dá)聲音量、方位以及反射聲音量、方位都會不同，它們的共同作用一定會帶來聽感的不同。這時，人耳所接收的聲音信息中不僅會包括聲源本身的聲音特征，同時也會包含聲源所處的空間環(huán)境的聲音特征，具體如圖1所示，這也就是說空間特征一定會對聽覺感知產(chǎn)生影響。

圖1：人耳所接收的“聲源特征”及“空間特征”示意圖

　　綜上所述，聽覺感知是與聲源本身以及聲源所處的空間環(huán)境緊密聯(lián)系的，聲源特征和空間特征共同構(gòu)成了人耳能夠感知和獲取到的聽覺特征信息，所謂“聽什么”，實(shí)際上就是收聽“聲源特征”和“空間特征”。

　　（二）“如何聽？”

　　所謂“如何聽”，本文中主要指人耳接收聲音信息并將其轉(zhuǎn)換成具體的、可被聽者理解的含義的這一過程，包括客觀感知和主觀映射兩個環(huán)節(jié)。其中，客觀感知環(huán)節(jié)與耳朵的生理結(jié)構(gòu)以及耳內(nèi)各個部位所對應(yīng)的功能息息相關(guān)。當(dāng)聲源在空間中通過振動產(chǎn)生聲波并經(jīng)由介質(zhì)傳播到人耳后，由耳廓和外耳道所構(gòu)成的外耳首先對聲波進(jìn)行聚合并傳導(dǎo)至中耳;中耳則通過鼓膜、鼓室、聽小骨、咽鼓管等的共同作用將聲波進(jìn)一步放大并傳導(dǎo)至內(nèi)耳;內(nèi)耳再利用前庭、半規(guī)管、耳蝸以及神經(jīng)束等，將聲波信號轉(zhuǎn)換為生物電信號，并傳導(dǎo)至大腦聽覺皮層。這一環(huán)節(jié)眾多研究已非常清楚地進(jìn)行了闡述，本文不再贅述。概括來說，聽音者通過外耳、中耳、內(nèi)耳和大腦聽覺皮層的共同作用，完成了對聲音信息的客觀感知。

　　此外，在整個聽音的過程中，還有最為重要的主觀映射環(huán)節(jié)，也就是聽音者如何將聽到的客觀聲學(xué)信息(如音節(jié)、起伏包絡(luò)、響度、頻率、音色等)轉(zhuǎn)換成可以理解的含義及其他相關(guān)信息的環(huán)節(jié)。筆者認(rèn)為，主觀映射的過程一部分可能來自于我們的基因，但絕大部分應(yīng)該源于我們從呱呱墜地后經(jīng)過長期的聽覺與其他如視覺、觸覺、嗅覺等多重感覺聯(lián)結(jié)在一起時，所共同建立起的主觀映射聯(lián)系。以語言為例，當(dāng)我們從小聽到漢語、英語、日語等不同語言的某一句話或某一個詞語，如“請跑過去”、“抓住你的胳膊”等，并通過后續(xù)一系列與之相關(guān)的過程或動作或感覺獲得相應(yīng)結(jié)果后，我們就可以將這種聲音特征與某種含義建立關(guān)聯(lián)，而通過長期的這種類似關(guān)聯(lián)后，我們則可以建立起這種聲音特征與特定含義之間的映射關(guān)系。甚至當(dāng)這種主觀映射達(dá)到更高階段，如說話者帶著不同的語氣和情緒來陳述同一句話時，也能夠使聽者獲取到不同的語義信息。當(dāng)然，這一過程中，同樣也會逐漸建立起聽音者對聲源空間方位及所處空間環(huán)境的判斷映射。這種現(xiàn)象的產(chǎn)生與日常生活中不斷的聯(lián)覺體驗(yàn)及其主觀映射的建立不可分割。

　　在闡述“如何聽”這一過程時，不得不提到人的“雙耳效應(yīng)”、 “頭相關(guān)傳遞函數(shù)(HRTF)” 和“雙耳聲(Binaural)”這三個概念，其示意可見圖2。我們都知道，人類是通過兩只耳朵來采集聲音并據(jù)此進(jìn)行主觀映射的。由于橫向排布的兩只耳朵與聲源間的不同距離會造成時間差，從而形成相位差，同時頭部的遮擋也會造成音色差，且距離差和頭部遮擋還會造成響度差，上述雙耳間的相位差、音色差以及響度差這些因素均會對聽者的定位感知和環(huán)境感知方面造成一定影響，導(dǎo)致客觀感知層面產(chǎn)生不同的聽感并影響到主觀映射的建立，這就是所謂的雙耳效應(yīng)。此外，當(dāng)人通過兩只耳朵接收聲音時，還會受到耳廓、頭、肩形狀以及毛發(fā)甚至衣物等相關(guān)部位或因素的影響，它們匯同雙耳效應(yīng)，共同對聲波的傳輸產(chǎn)生一定的作用，使得進(jìn)入耳朵的聲音類似于經(jīng)過了一個特定的綜合濾波器，這個特定濾波器這就是所謂的“頭相關(guān)傳遞函數(shù)(Head-Related Transfer Function, HRTF )”，它包含了聲波與人體發(fā)生作用后所引起的所有譜特征。由于不同的人體在上述人體結(jié)構(gòu)及其影響因素上具有一定的差異性，因此，每個人的頭相關(guān)傳遞函數(shù)其實(shí)也是不同的、個性化的。而且，即便我們位于同一空間的同一位置收聽同樣的聲源信息，每個人經(jīng)過其個體的頭相關(guān)傳遞函數(shù)濾波后所感知到的聲音客觀信息也是不同的，并進(jìn)而影響到其主觀映射的建立和后續(xù)判斷。因此，我們可以認(rèn)為，任何人在空間中感知聲音時，一定會受到個性化頭相關(guān)傳遞函數(shù)的影響，這種影響就形成了所謂的“雙耳聲”，而這種雙耳聲，在聲音的聲源特征、空間特征的基礎(chǔ)上，又不可避免地加載了每位聽者獨(dú)特的個人特征。

圖2：雙耳效應(yīng)、頭相關(guān)傳遞函數(shù)及雙耳聲示意

　　（三）聽覺感知三要素

　　綜上所述，筆者認(rèn)為，在現(xiàn)實(shí)生活中，個人對任何聲源的感知實(shí)則就是在聲源特征、空間特征和個體特征這三個要素的共同影響下產(chǎn)生聽覺，再基于心理聲學(xué)建立起長期主觀映射的復(fù)雜過程。聲源特征、空間特征和個體特征是構(gòu)成聽覺感知的最重要的三個基于物理層面的要素。

　　（四）現(xiàn)實(shí)生活中的“沉浸聲”

　　實(shí)際在日常生活中，我們其實(shí)每天處于來自于各個方向不同聲源所發(fā)出的，且結(jié)合了當(dāng)前空間環(huán)境特征所提供的各級次反射的聲音的包圍中，它們在受到我們個人HRTF特征影響后被大腦所感知。這也就是說，我們在生活中始終“沉浸”于這種最原始、也最為真實(shí)和自然的聲場中，這種聲場，正是目前沉浸式聲音技術(shù)所不斷追求的最終還原目標(biāo)。因此要實(shí)現(xiàn)對沉浸聲的良好理解和應(yīng)用，就需要從聲源特征、空間特征和人體特征這三個聽覺感知要素入手，它們都會對最終的整體聽覺感知產(chǎn)生重要的影響。

　　二、電聲化重現(xiàn)聲音情景的發(fā)展歷程

　　聲音情景的電聲化重現(xiàn)就是指通過電聲方式實(shí)現(xiàn)某個聲音情景中各類聲音元素的虛擬再現(xiàn)和相關(guān)空間聲學(xué)環(huán)境的虛擬重構(gòu)，從而為聽眾復(fù)刻該特定的聲音情景的過程，如流水潺潺的溪谷、演奏熱烈的音樂廳等。其實(shí)，如前所述，我們?nèi)粘Ｔ谏钪?，始終都“沉浸”于這種原始、真實(shí)和自然的聲場中。而這種聲場，正是電聲技術(shù)所不斷追求的最終還原目標(biāo)。

　　（一）從單點(diǎn)還原到三維還原

　　19世紀(jì)70年代留聲機(jī)的誕生使人們迎來了最早的音響系統(tǒng)，它采用單點(diǎn)(單聲道)還原方式，重現(xiàn)了所播放聲音情景的部分特征(主要為聲源特征)。但在時代的發(fā)展之下，它逐漸難以適應(yīng)人們越來越高的審美追求，因此，到20世紀(jì)20年代，英、法、美等國家開始使用立體聲系統(tǒng)，相比較于單聲道方式，它能夠提供較好的音質(zhì)和一定的水平空間定位感，使聲源特征和空間特征都適當(dāng)?shù)靡约訌?qiáng)，但同時也存在著較多的局限，對此，很多文獻(xiàn)已進(jìn)行了詳細(xì)探討，本文不再贅述。之后，到了1977年，杜比實(shí)驗(yàn)室成功研發(fā)出了包括左、中、右、后四個聲道在內(nèi)的商用環(huán)繞系統(tǒng)——Dolby Stereo，這一系統(tǒng)的研發(fā)既成為了后續(xù)主流的Dolby Digital5.1聲道系統(tǒng)的前身，也標(biāo)志著重放系統(tǒng)進(jìn)入了多聲道環(huán)繞時代。之后基于影院音響系統(tǒng)的應(yīng)用，又逐步開發(fā)出了側(cè)向、頂向和后向的揚(yáng)聲器來用于環(huán)境聲的重放，從而起到輔助和烘托整體氛圍的作用，并逐漸將其應(yīng)用于影院之外的其它場景中(如唱片、現(xiàn)場擴(kuò)聲等)。因此，聲音情景的電聲化重現(xiàn)歷程可以簡單概括為從最早的幾乎不具備任何空間特征的單聲道再現(xiàn)，逐漸演變?yōu)槟軌虿糠殖尸F(xiàn)水平空間特征的立體聲(Stereo)或前置多聲道再現(xiàn)，再到之后可以在水平和縱深兩維方向上展現(xiàn)空間特征的再現(xiàn)，到如今又逐步發(fā)展到可以在水平、縱深和高度三個維度上體現(xiàn)空間特征的再現(xiàn)，這一過程，實(shí)際上就是人類不斷嘗試更好地重現(xiàn)現(xiàn)實(shí)生活中真實(shí)場景的探索。

　　（二）何謂“沉浸聲”或“Immersive Sound”？

　　行文至此，筆者也想基于自己的理解，給出所謂沉浸聲或?qū)?yīng)的英文名詞“Immersive Sound”的定義。應(yīng)該講，目前業(yè)界對于沉浸聲并沒有形成統(tǒng)一且明確的定義，此類音頻的叫法也五花八門，包括全景聲、全向聲、3D音頻、空間音頻等，但查閱“沉浸”的中文語意，可以得到三個解釋，其一為“浸泡，浸入水中。多比喻完全處于某種境界或思想活動中”;其二為“全神貫注于某種事物”;其三則為“使......充滿”。而查閱英文單詞術(shù)語“Immersive”，則可以得到“used to describe a computer system or image that seems to surround the user——感覺圍繞在使用者周圍，慣用于描述計算機(jī)系統(tǒng)或圖像。” 或“(of a computer display or system)generating a 3-dimensional image which appears to surround the user——(計算機(jī)系統(tǒng)或顯示設(shè)備)產(chǎn)生出一種三維的、使人感覺被圍繞的畫面。” ，由此可見，無論中文還是英文，其解釋中最為核心的詞匯為“浸泡”、“完全處于”、“充滿”、“圍繞”、“三維”等，意即從四面八方包裹起來的意思，而“沉浸聲”加上后綴這個“聲”字后，我們還需要結(jié)合聲音學(xué)科及其發(fā)展歷程來研究其定義。所以，經(jīng)多維度考慮后，筆者認(rèn)為：所謂沉浸聲或Immersive Sound，就是指與人類日常生活中實(shí)際聽覺感知極其類似的、可以從水平、縱深及高度三個維度呈現(xiàn)聲音信息的聲場。人類利用電聲系統(tǒng)從單點(diǎn)還原到一維還原再到兩維還原聲場的過程，實(shí)際上都可以看做是沉浸聲還原聲場(即三維還原聲場)的前期探索。

　　在這里特別值得一提的是，目前在沉浸聲擴(kuò)聲系統(tǒng)的應(yīng)用中，有一個名詞叫做前置式系統(tǒng)(Frontal System),它通常指布置在舞臺(或表演區(qū))前部，面向觀眾供聲的多組揚(yáng)聲器，那它到底算不算沉浸聲系統(tǒng)呢?筆者認(rèn)為，這個要依賴于其要重構(gòu)的聲音情景來看。研究表明，人耳對于聲音高度信息的變化并不敏感，所以當(dāng)多個不存在明顯高度差異的聲源只排列于聽眾前方并且距觀眾有一定距離時，這種高度差異或其變化已不容易引起聽眾聽感的不同了，而這時，如果前置的多組揚(yáng)聲器能夠準(zhǔn)確虛擬出各聲源的發(fā)聲效果(包括其聲源音色、空間布局等)，且不需要電聲系統(tǒng)重構(gòu)相關(guān)空間聲學(xué)環(huán)境特征的話，那么這種前置式系統(tǒng)也可以稱之為沉浸聲。以室外空曠場地舉行的流行音樂演唱會為例，首先，該空間可以近似的認(rèn)為是自由場，不存在頂部、側(cè)向及后向反射聲;其次，流行音樂的演員全部都在舞臺上表演，也不存在位于觀眾側(cè)向、后向及頂部的演出用聲源，這時，如果良好的前置式系統(tǒng)能夠較好地虛擬再現(xiàn)出與我們視覺感知非常接近的聲音情景的話，我們將其稱為沉浸式擴(kuò)聲也并無不妥。

　　由此可見，雖然從字面上講，沉浸聲是指可以從水平、縱深及高度三個維度呈現(xiàn)聲音信息的聲場，但從應(yīng)用角度來看，能夠較為準(zhǔn)確地還原出與人類視覺等其他感知維度在心里聲學(xué)層面所映射到的聽覺效果相接近的聲場，其實(shí)就可以稱之為沉浸聲。不過，通常而言，這種聲場必須具備呈現(xiàn)水平、縱深及高度三個維度聲音信息的能力，因?yàn)榻^大多數(shù)日常生活中的聲音情景都是三維的。

　　（三）基于聲道與基于對象

　　當(dāng)前，沉浸聲的制作與實(shí)現(xiàn)主要包括基于聲道(Channel Based)和基于對象(Object Based)兩種技術(shù)。其中在傳統(tǒng)的立體聲或5.1、7.1平面環(huán)繞聲或5.1.2等格式的三維沉浸聲中，聲道格式和揚(yáng)聲器布局二者間需要統(tǒng)一，即理想的聲源制作端要求使用多聲道的拾音制式、同樣數(shù)量的多聲道母線分配機(jī)制和多聲道監(jiān)聽揚(yáng)聲器(當(dāng)然，也可以通過母線分配機(jī)制將少于監(jiān)聽揚(yáng)聲器通道數(shù)量的拾音信號或非實(shí)際拾音獲取的信號進(jìn)行重新的通道分配)，同時重放端揚(yáng)聲器數(shù)量和布局方式也要和制作端嚴(yán)格匹配，以此來對聲音場景及空間進(jìn)行再現(xiàn)，這樣的實(shí)現(xiàn)方式一般稱之為基于聲道的沉浸聲音頻。該技術(shù)主要應(yīng)用于廣播、唱片、影院等固定揚(yáng)聲器布局和模式的標(biāo)準(zhǔn)應(yīng)用場景下，可遷移性及應(yīng)用靈活性較差，因此，基于對象的沉浸聲音頻在這之后便應(yīng)運(yùn)而生。這種基于對象的沉浸聲技術(shù)對制作和重放揚(yáng)聲器的布局沒有特定的要求，不管采用何種方式，聲源制作端只需要提供各個聲源對象的空間坐標(biāo)信息，那么在重放端就能通過沉浸式引擎算法對聲源對象進(jìn)行渲染，并分配給不同布局的重放揚(yáng)聲器或耳機(jī)，即可再現(xiàn)包括空間特征在內(nèi)的聲音情景，因此這種技術(shù)具有更強(qiáng)的靈活性、適應(yīng)性和可遷移性，近年來已成為了沉浸聲制作播出的主流方式。

　　三、沉浸聲的實(shí)現(xiàn)

　　對于沉浸聲的實(shí)現(xiàn)來說，其最終呈現(xiàn)載體通常而言有兩種方式，一種是通過耳機(jī)進(jìn)行重放，另一種是通過揚(yáng)聲器進(jìn)行重放。

　　（一）耳機(jī)重放

　　通過前面的分析我們知道，影響聲音聽感的三個重要因素分別是聲源特征、空間特征和人體特征。針對將沉浸式聲音通過耳機(jī)重放這種再現(xiàn)方式來說，因?yàn)樵诖诉^程中，聲音將直接通過耳機(jī)進(jìn)入到人耳(即左、右聲道信號分別被直接送入左耳和右耳)，所以聲音在整個傳播過程中缺少了人體特征(即包含了雙耳效應(yīng)的頭相關(guān)傳遞函數(shù))的影響，因此，在利用耳機(jī)實(shí)現(xiàn)沉浸聲重放時，非常重要的一點(diǎn)就是需要人為地對聲音進(jìn)行人體特征的重構(gòu)，無論這種重構(gòu)是在制作端還是在播出端。

　　如前文所述，人體特征主要表現(xiàn)為個性化的HRTF，所以，在用耳機(jī)實(shí)現(xiàn)沉浸聲這一過程中，一定需要加載與聽音者相匹配的HRTF才能完全還原聲音，根據(jù)聲音信號的電聲化重現(xiàn)過程來看，加載HRTF的方式無外乎三種：第一，在拾音環(huán)節(jié)加載HRTF;第二，在聲音信號制作環(huán)節(jié)加載HRTF;第三，在耳機(jī)重放環(huán)節(jié)加載HRTF。

　　1.拾音環(huán)節(jié)加載HRTF

　　如果想在拾音時加載HRTF，最理想的方式就是在演出現(xiàn)場將拾音器置于聽音者的雙耳進(jìn)行拾音，將聽音者本人在特定空間的特定位置聽到的原始聲音記錄下來，這個信號既包括聲源特征和空間特征，也包含聽音者個性化的人體特征。之后，無論聽音者在任何空間、任何位置進(jìn)行耳機(jī)重放時，都將完全還原拾音時的聲音狀態(tài)。這一方法雖然相對完美，但從實(shí)際應(yīng)用的角度來看，并不具可操作性，因?yàn)椴豢赡苊總€聽音者都能親自到現(xiàn)場進(jìn)行雙耳拾音，所以可以適當(dāng)妥協(xié)，在最終效果和實(shí)用性之間進(jìn)行平衡，如采用普適性的人工頭來代替聽音者完成現(xiàn)場的雙耳拾音工作。當(dāng)然，在此過程中一定要注意一個細(xì)節(jié)，即人工頭擺放于該聲場空間的哪個位置，重放時的聽感就會置身于此位置，例如將人工頭擺放在觀眾席位置拾音和擺放在樂隊(duì)指揮的位置進(jìn)行拾音，重放時所得到的聲音聽感是不一樣的，即人體特征已被加載的前提下，不同聽音位置所拾取到的聲源特征和空間特征將會決定最終的聽感。圖3即為采用Neumman KU100人工頭或KEMAR人體模型進(jìn)行拾音的示意。

圖3：Neumman KU100人工頭及

KEMAR人體模型拾音示意圖

　　2.信號制作環(huán)節(jié)加載HRTF

　　如果拾音時沒有采用真人雙耳拾音或人工頭拾音，那么所拾取的信號雖然具有一定的聲源特征和空間特征(如通過立體聲或環(huán)繞聲、沉浸聲制式所拾取的聲音)，但卻不會包含人體特征。尤其是通過近距離單點(diǎn)拾音方式拾取的信號，其空間特征極其不明確。當(dāng)然，除此之外，還有些聲音信號可能是非實(shí)際物理聲學(xué)所產(chǎn)生的合成音源或電子類音源，它們更不具備實(shí)際的空間特征，所以，對于這類聲音信號的沉浸聲重現(xiàn)，就需要以創(chuàng)作者的視角來制作沉浸聲了，即需要給它們?nèi)藶榈?“加載”人體特征和空間特征。對于前者，目前已有眾多公司提供了沉浸聲雙耳渲染硬件設(shè)備或軟件插件，如圖4所示的Dolby、Anaglyph等，通過它們對原始信號的渲染，可以獲得類似雙耳聲的聽感，但在渲染之前，對于那些不具備空間特征的聲音信號，制作者還需通過各種聲像(Pan)類電位器、各類混響器、延時器等來賦予其空間特征。上述兩種方法結(jié)合在一起，可以共同幫助我們努力接近想要的沉浸式聲音效果。不過就目前而言，到底哪款雙耳渲染設(shè)備或插件的算法更逼真、更普遍適用、聽感更好，則需要更深一步進(jìn)行相關(guān)的主觀評價實(shí)驗(yàn)。

圖4：Dolby及Anaglyph的雙耳聲渲染插件

　　3.耳機(jī)重放環(huán)節(jié)加載HRTF

　　所謂在信號重放環(huán)節(jié)加載HRTF是指將帶有聲源特征和空間特征的聲音信號送入耳機(jī)重放時，首先經(jīng)過與聽音者相匹配的HRTF濾波器，從而將其轉(zhuǎn)化成雙耳聲來實(shí)現(xiàn)沉浸式重放。當(dāng)然，最精準(zhǔn)的效果就是加載聽音者自己的個性化HRTF，但這需要在專業(yè)的消聲室內(nèi)進(jìn)行多角度、全方位的先期測量并做歸納運(yùn)算，這實(shí)際上這很難實(shí)現(xiàn)。于是，妥協(xié)的方案有兩個，一個是加載經(jīng)過大數(shù)據(jù)統(tǒng)計平均而來的普適性HRTF;另一個則是可以在某一個空間環(huán)境里用某一款揚(yáng)聲器重放脈沖信號來測量聽音者雙耳的全頻脈沖響應(yīng)，以快速獲得該聽音人的個性化HRTF，實(shí)際上這個HRTF同時也加載了當(dāng)時重放揚(yáng)聲器以及重放空間環(huán)境的影響，可以說是一個綜合性的HRTF，而不是僅僅基于個人影響的HRTF。該類設(shè)備目前已有成熟的量產(chǎn)商用產(chǎn)品，如圖5所示的Smyth Realizer A16等，它們多用于通過耳機(jī)虛擬某一制作空間的聽覺感受，如好萊塢的某個杜比全景聲電影混錄棚等，以用于異地仿真混音等。

圖5：Smyth Realizer A16虛擬現(xiàn)實(shí)渲染器

　　（二）揚(yáng)聲器重放

　　利用揚(yáng)聲器重現(xiàn)沉浸聲時，聽音者依靠雙耳收聽聲音信息，本身就帶有了個人HRTF的影響，所以無需再考慮重構(gòu)人體特征了。此時，我們需要著重考慮聲源特征和空間特征的重構(gòu)。當(dāng)然，這種重構(gòu)也依據(jù)聲音信號的電聲化重現(xiàn)過程，主要分為兩種方法。第一，在拾音環(huán)節(jié)予以確定;第二，在制作環(huán)節(jié)予以確定?；诔ＷR，我們知道，無論是話筒拾取的聲音信號，亦或電子化方式合成的聲音信號，其已基本具備較為清晰的聲源特征了，所以空間特征(包括聲源方位和聲場環(huán)境特征等，則是上述聲音重構(gòu)過程的核心工作。

　　1.在拾音環(huán)節(jié)確定聲源的空間特征

　　我們知道，利用立體聲拾音制式、環(huán)繞聲拾音制式及相關(guān)調(diào)整，即可獲取聲源的水平位置信息或者水平+縱深位置信息，那么同理，利用沉浸式拾音制式(或稱之為三維聲拾音制式)，具體如Sennheiser Ambeo、Rode SoundField、LDK Cube等，則同樣可以獲取三維空間信息。之后，基于當(dāng)前的技術(shù)現(xiàn)狀，通過與重放揚(yáng)聲器通道的直接對應(yīng)或經(jīng)相關(guān)的轉(zhuǎn)換算法后，通常即可得到基于聲道的沉浸聲，并可通過同樣聲道的揚(yáng)聲器予以重放。當(dāng)然，制作人員也可以更進(jìn)一步，將所拾取到的聲音通道視為不同的聲源對象，并將其送入基于對象的相關(guān)沉浸聲處理器，依據(jù)制作場地監(jiān)聽的聽感進(jìn)行再制作，以獲取更符合創(chuàng)作者期望或者具備更好聽覺效果的聲音。

　　2.在制作環(huán)節(jié)構(gòu)建聲源的空間特征

　　如果拾音時未采取沉浸式拾音制式，或者使用了電子合成類聲源，那么所得到的信號雖然具有一定的聲源特征，但其空間特征卻不明確，尤其是前述的通過近距離單點(diǎn)拾音拾取的信號，這一點(diǎn)與之前關(guān)于耳機(jī)重放的相關(guān)論述完全相同。因此，這部分信號的沉浸聲處理，需要以創(chuàng)作者的視角來進(jìn)行相關(guān)制作(無論是錄音制作還是擴(kuò)聲制作)，即給它們?nèi)藶榈?“加載”空間特征并適當(dāng)匹配調(diào)整聲源特征。具體的處理方法依據(jù)沉浸聲處理設(shè)備的不同而不同。不過，當(dāng)前的各種沉浸聲處理器幾乎全部都可以提供三維聲像電位器或三維空間視圖，用以調(diào)控聲源對象的空間位置或運(yùn)動軌跡，同時，個別產(chǎn)品還可以同步伴隨聲源對象音色的變化及空間混響的變化，當(dāng)然，有的處理器則需要人為調(diào)整空間混響和音色。所有這些，都需要混音師在良好的沉浸式監(jiān)聽條件下依據(jù)監(jiān)聽效果來進(jìn)行。處理完畢的成品信號，如果以聲道方式輸出，則需要之后的重放場地按制作時的監(jiān)聽條件配置同樣數(shù)量、同樣布局的揚(yáng)聲器;而如果以聲源對象元數(shù)據(jù)(包括空間位置、聲源大小等)的方式輸出，則可以兼容更多的重放揚(yáng)聲器布局方式，這種信號格式在最終重放時，會首先在現(xiàn)場用的沉浸聲處理器中建立重放場地的揚(yáng)聲器布局模型，確定所要用到的揚(yáng)聲器數(shù)量和位置，之后再以此為基礎(chǔ)，結(jié)合聲源對象的元數(shù)據(jù)進(jìn)行渲染計算，從而得到現(xiàn)場每一個揚(yáng)聲器具體需要重放的信號內(nèi)容。

　　3.揚(yáng)聲器重放沉浸聲的算法理論基礎(chǔ)

　　利用揚(yáng)聲器重放沉浸聲，在實(shí)際執(zhí)行時，依然需要向三個空間維度的相關(guān)揚(yáng)聲器各自饋送不同的聲音信號，使之在整個聽音空間內(nèi)合成為聲源對象的位置和相關(guān)的聲場環(huán)境。因此，無論何種沉浸聲處理器，其本質(zhì)就是利用渲染算法，將某一個聲源對象的元數(shù)據(jù)，運(yùn)算拆解成為不同的揚(yáng)聲器通道信息并饋送給相關(guān)揚(yáng)聲器。

　　在當(dāng)前的技術(shù)發(fā)展下，利用揚(yáng)聲器重放沉浸聲的基本技術(shù)原理主要分為兩類，即基于感知的虛擬聲音場景重建技術(shù)和聲場物理重建技術(shù)，它們共同構(gòu)成了揚(yáng)聲器重放沉浸聲算法的理論基礎(chǔ)。其中，基于感知的虛擬聲音場景重建技術(shù)主要包括基于矢量的幅度聲像控制技術(shù)(Vector-based amplitude panning，VBAP)和基于距離的幅度聲像控制技術(shù)(Distance-based amplitude panning，DBAP)，該類技術(shù)主要考慮人耳的感知特性，所以實(shí)現(xiàn)起來相對簡單。而聲場物理重建技術(shù)的重要代表則主要基于高階球諧分解和重構(gòu)的聲重建理論(High Order Ambisonic,HOA)和波場合成理論(Wave field synthesis,WFS)，基于這兩種理論的聲場重建技術(shù)主要追求對原始聲場的精確還原，因此無論是對重放設(shè)備還是重放環(huán)境都有較高的要求。

　　基于矢量的幅度平移技術(shù)最早由芬蘭赫爾辛基理工大學(xué)的Viile Pulkki于1997年提出，它的原理是利用2～3個揚(yáng)聲器方向的單位向量線性組合出虛擬聲源方向的單位向量，即為不同揚(yáng)聲器分配不同幅度的信號，利用各揚(yáng)聲器到達(dá)人耳的聲級差來控制人耳對聲源(聲像)位置的感知。利用VBAP技術(shù)能較為準(zhǔn)確地恢復(fù)500～600Hz以下的聲音的方向，但前提是各揚(yáng)聲器要布置在同一球面，因此基于VBAP的揚(yáng)聲器重放只能在一定范圍內(nèi)恢復(fù)聲源的方位。

　　基于距離的幅度平移技術(shù)由Lossius和Pascal Baltazar、Kostadinov和Reiss這兩對科學(xué)家提出，與VBAP不同的是該技術(shù)支持在非球面環(huán)境布置揚(yáng)聲器陣列。雖然DBAP的精確度沒有VBAP高，但是DBAP應(yīng)用起來更靈活，應(yīng)用過程中不再受揚(yáng)聲器和聽音者布局的限制。

　　聲場物理重建技術(shù)來源于1934年Steinberg和William Snow提出的“聲音幕簾(Acoustic Curtain)”概念。它指出我們可以用大量的傳聲器在一個面上組成一個緊密的傳聲器網(wǎng)格陣列，并用此陣列采集原始聲源的方位信息和聲場形狀，再依據(jù)惠更斯原理，利用同樣結(jié)構(gòu)的揚(yáng)聲器網(wǎng)格陣列重放對應(yīng)位置傳聲器所拾取的信號，即可還原出聲源的方位和聲場輻射信息。據(jù)此，1988年，Gus Berkhout受地震研究及原油開采勘探的啟發(fā)提出了波場合成理論。在理想狀態(tài)下，利用該理論可以完全還原出原始聲場，聽音者可在由二次聲源合成的聲場區(qū)域中任意走動，且聲像不會隨聽音者的位置的變化而變化。

　　此外，另外一種聲場物理重建技術(shù)則為基于高階球諧函數(shù)分解和重構(gòu)理論的聲場重建技術(shù)，有關(guān)該技術(shù)的研究最早從二十世紀(jì)70年代開始，它利用球諧函數(shù)作為編碼和解碼的基矢量，通過逐級增加重放階數(shù)來逼近原始聲場信息。階數(shù)越高，用于表現(xiàn)聲源對象特征的基矢量越多，解析度也越細(xì)致，其共同作用后的呈現(xiàn)效果也越接近于實(shí)際。不過，此時也帶來了運(yùn)算量和揚(yáng)聲器數(shù)量幾何增加、揚(yáng)聲器布局困難等諸多難題。

　　關(guān)于上述技術(shù)原理的具體細(xì)節(jié)，目前已有很多文獻(xiàn)進(jìn)行了探討，本文將不再贅述。但筆者個人認(rèn)為，波場合成技術(shù)最具原理合理性，因而應(yīng)該能夠獲得更佳的聲音情景重構(gòu)聽感效果。不過，利用波場合成技術(shù)的重放還有很多亟待解決的問題，比如揚(yáng)聲器間距的控制與頻率混疊的問題、重放所需揚(yáng)聲器數(shù)量過多、長陣列的時域效應(yīng)等，同時，還要考慮緊密排列的揚(yáng)聲器陣列如何可以安裝實(shí)現(xiàn)以及其造價問題。

　　理論上講，在采用其理想狀態(tài)揚(yáng)聲器重放時，上述技術(shù)原理都能夠在某一聽音區(qū)域?qū)崿F(xiàn)聲源對象的較好重構(gòu)，但從實(shí)際應(yīng)用的角度來講，基于以上每種原理的的揚(yáng)聲器渲染算法都還存在一定的問題，且各自的理想運(yùn)算也較為復(fù)雜，所以目前絕大多數(shù)沉浸聲處理器大都采用上述兩到四項(xiàng)技術(shù)綜合后的算法，并分別進(jìn)行了適當(dāng)?shù)暮喕?，從而在重?gòu)聲場的準(zhǔn)確性和可實(shí)現(xiàn)性中予以折中。

免責(zé)聲明：本文來源于中國傳媒大學(xué)，本文僅代表作者個人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)

我的位置：

沉浸聲專題討論一：《沉浸聲—聲音情景的重構(gòu)與創(chuàng)造（上）》

評論comment

復(fù)旦大學(xué)教室煥新升級！雷曼光電重構(gòu)高校數(shù)字化教學(xué)場景

ISLE 2025 | MIP LED 一體機(jī)首發(fā)，青松光電誠邀品鑒！

DAV專訪廣州艾索技術(shù)：創(chuàng)新驅(qū)動下的信創(chuàng)市場深耕與智能化升級

行業(yè)資訊 | 立足消費(fèi)者體驗(yàn)，飛利浦商顯賦能門店精細(xì)化管理

我的位置：

share

相關(guān)閱讀related

評論comment