對于AR/VR,定位用麥克風陣列記錄的多個聲源是一項重要任務。所以,社區已經為這項任務開發了眾多到達方向(DOA)估計方法,包括基于波束成形的方法、子空間方法和到達時延估計方法等等。大多數基于所述方法的算法設計都假設自由場環境。當算法用于更常見的混響環境時,它們的DOA性能會下降。
這是因為在混響環境中,房間反射掩蓋了攜帶DOA信息的直接聲音。當然,最近社區開發了數種對混響魯棒的多揚聲器DOA估計方法。一種這樣的方法在時頻域中處理麥克風信號,并采用直接路徑優勢(DPD)測試來識別由源的直接聲音主導的時頻bin。然而,它們假設聲源和麥克風陣列都是靜止,而在聲源和/或麥克風陣列移動的動態環境中,相關算法的研究較少。在動態環境中,聲源和/或麥克風陣列的運動可能導致DOA在時間上快速變化。因此,為了準確地追蹤DOA,需要在連續DOA估計之間的短間隔。另外,可以使用追蹤算法來及時平滑DOA估計。
盡管社區已經開始研究動態環境中的DOA估計和追蹤算法是,但它們都沒有包括可佩戴麥克風陣列的實驗。隨著AR應用的普及,這樣的場景會越來越流行。所以,以色列本·古里安大學的研究人員探索了可佩戴麥克風陣列在噪聲動態環境中的DOA估計問題。
實驗使用Easy Communication(EasyCom)數據集進行。DOA估計是使用一種計算效率高的算法計算,它在靜態混響環境中具有良好的源定位性能。所述算法結合了DPD測試,并在時頻域中運行。團隊研究了算法在不同操作參數下的性能和局限性。
團隊首先簡要介紹了麥克風陣列在每個時頻段(t,f)捕獲的記錄信號的假設模型,然后描述了用于每個bin(t,f)處DOA估計的Local Space Domain Distance(LSDD)算法。
信號模型
假設一個麥克風陣列,其中M個麥克風按照預定義的幾何形狀排列。接下來,考慮由K個遠場源組成的聲場,從方向Ψk,K∈ {1,2,…,K}到達。源表示場景中揚聲器發出的直接聲音,以及物體和房間邊界引起的反射(混響)。
在下一步中,通過應用short-time Fourier transform(STFT)將記錄的麥克風信號變換到聯合時頻域。這是通過首先將語音信號分離成長度為δt的短時間間隔來實現。然后將fast Fourier transform(FFT)應用于每個時間段。在預處理步驟之后,麥克風陣列接收的信號可以在STFT域中描述為:
團隊提出的DOA估計算法
研究人員提出的新DOA評估算法是使用EasyCom數據集研究LSDD算法性能的結果。LSDD算法不使用關于S(t,f)相對于Θl的行為的任何信息。由于所述信息可能有用,團隊建議使用相關過程將其合并,如下所示。對于每個頻率f,定義一個由矩陣W表示的理想二維譜,其元素為Wlh≡ W(Θl,Θh),表示第l個轉向矢量v(f,Θl)和第h個轉向矢量v(f,θh)之間的相似性:
這實際上定義了新的基于方向性的空域距離(dSDD)DOA估計算法。現在使用下列公式計算bin(t、f)的相應DOA估計,
同時,定義相應的DPD測試度量:
(9) 和(10)定義一個(聯合)dSDD DOA/DPD算法。應當注意,在理想條件下, LSDD和dSDD這兩種算法應該提供相同的估計,因為它們都依賴于同一組導向矢量。然而,提出dSDD的動機是由于對整個函數或向量的比較,對潛在噪點和混響的預期魯棒性。這與LSDD形成對比,LSDD的DOA估計基于尋找函數中的峰值。另外,與LSDD算法的情況一樣,研究人員描述了能量加權dSDD算法(dSDDe)。其中,對于每個bin(t,f),用相應的信號能量對dSDD DPD測試度量進行加權。因此,能量加權DPD測試值為:
實驗研究
團隊利用了EasyComm數據集研究LSDD和dSDD的性能。所述數據集的設計目的是分析雞尾酒會效果,其中音頻信號由配備六通道麥克風陣列的增強現實眼鏡捕獲。數據集包含嘈雜餐廳環境中自然對話的記錄。參與者配備了近距離交談麥克風、攝像頭和追蹤標記。被試要求在幾項任務中進行對話,包括自我介紹、點餐、解謎、玩游戲和閱讀句子。
錄音同時包含參與者以自我為中心的視頻視點。四個麥克風剛性固定在眼鏡,兩個麥克風放在用戶耳朵里。麥克風記錄的信號以48kHz的速率采樣。使用1024個樣本將記錄的數據轉換為STFT域(? 20msec)Hann window,重疊512個樣本。STFT域中的麥克風信號用作算法的輸入。
DOA/DPD算法的方法評估包括分辨率為5?的方向搜索。ground truth方位角DOA(Ψk)是從EasyCom數據集獲得,并作為時間的函數。總之,團隊使用EasyCom數據集進行了一系列三個實驗。第一個實驗測量了陣列的有效頻率范圍[flow,fhigh],第二個和第三個實驗研究了頻率平滑的效果和時間間隔的長度?T對性能的影響。
DOA估計性能評估如下。對于每個(t,f)bin,絕對誤差:
請注意,等式(12) 假設Ψ(t)和θ?(t,f)都是關于同一軸測量。實際上,Ψ(t)是相對于相對于房間定義的軸測量,而θ?(t,f)是相對于玻璃的方向測量。因此,在計算ε(t,f)之前,通過合并頭部追蹤信息將θ?(t、f)轉換為房間的固定軸。
EasyCom數據集涉及語音,這自然限制了感興趣的頻率范圍。在實踐中,頻帶通過麥克風陣列產生的混疊效應而減小。對于一個特定的轉向向量v(f,Θh)(對應于頻率f和方向θh),v(f,Θh)與一組轉向向量v∈ {1,2,…,L}使用以下等式計算:
對于導致以下測量所有頻率f重復此操作:
目視檢查表明,首選頻帶約為1100?2000Hz。盡管這是一個相對窄的頻帶,但在這項研究中,它帶來了最佳性能。對于未來的工作,研究人員建議擴展低頻和高頻的工作范圍。
DOA誤差和頻率平滑
頻譜S(t,f)在DOA/DPD算法中起著關鍵作用。特別是,平滑頻率S(t,f)有所幫助。研究人員研究了使用長度為(2R+1)的移動平均濾波器在頻率上平滑S(t,f)。然后, 對從EasyCom數據集提取的幾個1分鐘片段進行DOA估計實驗.相應的結果如圖3所示。
研究人員將獲得的結果與LSDD算法的變化,以及LSDDe和dSDDe算法的最佳變化(即無平滑)進行了比較。在低百分比p下,平均絕對誤差E(p,?T) 使用dSDDe算法獲得的值約為9?,低于用LSDD算法獲得的值。類似地,用dSDDe算法獲得的平均命中率比用LSDD算法獲得高大約5%。
DOA誤差和時間間隔?T
時間間隔的選擇?T可能與數據集的動態性質直接相關。通常,希望使用值?T足夠小,使得環境可以認為是間隔內的空間靜止。但如果?T太小,DOA性能可能會降低。在這個實驗中,團隊調查了數個值:(a)?T=200毫秒;(b)?T=300毫秒和(c)?T=500毫秒。
DOA/DPD算法使用了最佳頻率平滑。在上圖中,隨著?T增加,性能得到持續顯著改進。在?T=500毫秒。當p=1%時,dSDDe給出了平均絕對DOA誤差E≈ 20? 。與圖3相似,dSDDe的性能最好,LSDD的性能最差。
上圖說明了dSDDe算法的性能以及幾個實驗數據值的時間線。ground truth方向使用粗虛線表示。麥克風陣列的方向用粗紅線標記。
相關論文:Study of speaker localization under dynamic and reverberant environments
總的來說,以色列本·古里安大學的研究主要是根據EasyCom數據集進行了三次DOA估計實驗。相關的初步實驗表明: