本公開涉及聲音編解碼(code),具體地但非排他地涉及基于對象的音頻編解碼器中的不連續傳輸(dtx)的方法和設備。在本公開和所附權利要求中:(a)術語“音頻”可以與語言、音樂和任何其他聲音有關。(b)術語“多聲道”可以與兩個或更多個聲道有關。(c)術語“立體聲(stereo)”是“立體聲(stereophonic)”的縮寫。(d)術語“單聲道(mono)”是“單聲道(monophonic)”的縮寫。(e)術語“基于對象的音頻”旨在將聽覺場景表示為單個元素(也稱為音頻對象)的集合。此外,“基于對象的音頻”可以包括例如語言、音樂和包括一般音頻聲音的任何其他聲音。(f)術語“音頻對象”旨在指定具有相關聯的元數據的音頻流。例如,在本公開中,“音頻對象”被稱為具有元數據的獨立音頻流(ism)。(g)術語“音頻流”旨在以比特流表示音頻波形,例如語言、音樂和/或包括一般音頻聲音的任何其他聲音,并且可以由一個聲道(單聲道)組成,盡管也可以考慮包括兩個聲道(立體聲)的多聲道。(h)術語“元數據”旨在表示描述例如用于將原始或編解碼音頻對象翻譯到再現系統的音頻流和藝術(artistic)意圖的信息的集合。元數據通常描述每一單個音頻對象的空間屬性,例如位置、定向、音量、寬度等。作為非限制性示例,在本公開的上下文中,考慮元數據的兩個集合:-輸入元數據:用作編解碼器的輸入的未量化的元數據表示;本公開不限于輸入元數據的特定格式;和-編解碼的元數據:形成從編碼器傳輸到解碼器的比特流的一部分的量化和編解碼的元數據。(i)術語“音頻格式”旨在指定實現沉浸式音頻體驗的方法。(j)術語“再現系統”旨在指定解碼器中的元素,該元素能夠在再現側使用所傳輸的元數據和藝術意圖來渲染音頻對象,例如但不排他地在收聽者周圍的3d(三維)音頻空間中的音頻對象。可以對目標揚聲器布局(例如5.1環繞)或耳機執行渲染,同時可以例如響應于來自頭部跟蹤設備的反饋來動態地修改元數據。可以設想其他類型的渲染。
背景技術:
1、不連續傳輸(dtx)在移動通信系統中用于在語言或一般音頻暫停期間關閉無線電發送機。dtx的使用節省了移動站中的功率并且增加了電池再充電之間所需的時間。它還降低了一般干擾水平,從而提高了傳輸質量。然而,在語言或一般音頻暫停期間,如果信道被完全切斷,則通常與語言或一般音頻一起傳輸的背景噪聲也消失。結果是在通信的接收端產生不自然的發聲音頻信號(靜音)。
2、代替在語言或一般音頻暫停期間完全關閉傳輸,已經開發了許多技術,其中生成表征背景噪聲的參數并以低比特速率在靜音插入描述符(sid)幀比特流中傳輸。然后可以在接收器側(解碼器)使用這些參數,通常稱為舒適噪聲(cn)參數,以盡可能多地在發送器側(編碼器)重新生成背景噪聲,該背景噪聲與背景噪聲的頻譜和時間內容有關。重新生成背景噪聲的過程被稱為舒適噪聲生成(cng)。
3、歷史上,會話電話是用單聲道手機來實施的,單聲道手機僅具有一個換能器,以僅向用戶的一只耳朵輸出聲音。因此,單聲道編解碼器的sid可以實現低比特速率。在過去的十年中,用戶已經開始結合耳機使用他們的便攜式手機來通過他們的兩只耳朵接收聲音,主要是聽音樂,但有時也聽語言。然而,當使用便攜式手機來發送和接收會話語言時,內容仍然是單聲道的,但是當使用耳機時呈現給用戶的兩只耳朵。
4、利用3gpp(第三代合作伙伴計劃)語音編解碼標準實施用于增強語言服務(evs)的編解碼器,如參考文獻[1](其全部內容通過引用并入本文)中所述,編解碼音頻聲音(例如語言、音樂和通過便攜式手機發送和接收的任何其他聲音)的質量已經顯著提高。下一個自然步驟是傳輸立體聲信息,使得接收器盡可能接近在通信鏈路的另一端捕獲的現實生活音頻場景。
5、此外,在過去幾年中,音頻的生成、記錄、表示、編解碼、傳輸和再現正在朝著收聽者的增強的、交互式的和沉浸式的體驗發展。沉浸式體驗可以被描述為例如在聲音來自所有方向時深度參與或牽涉到音頻場景中的狀態。在沉浸式音頻(也稱為3d(三維)音頻)中,聲音映像(image)在收聽者周圍的所有三個維度中被再現,考慮到廣泛的聲音特性,如音色、方向性、混響、透明度和準確性的(聽覺)寬敞度。沉浸式音頻被產生用于特定音頻回放或再現系統,諸如基于揚聲器的系統、集成再現系統(條形音箱)或耳機。然后,音頻再現系統的交互性可以包括例如調整聲級、改變聲音的位置或選擇不同語言用于再現的能力。
6、有三種基本方法(下面也稱為音頻格式)來實現沉浸式音頻體驗。
7、第一種方法是基于聲道的音頻,其中使用多個間隔開的麥克風來捕獲來自不同方向的聲音,而一個麥克風對應于特定揚聲器布局中的一個音頻聲道。每個記錄的聲道被提供給特定位置中的揚聲器。基于聲道的音頻的示例包括例如立體聲、5.1環繞聲、5.1+4等。
8、第二種方法是基于場景的音頻(sba),其通過維度分量的組合將局部化空間上的期望聲場表示為時間的函數。表示基于場景的音頻的信號獨立于聲源位置,而聲場必須在渲染再現系統處變換為所選擇的擴音器布局。基于場景的音頻的示例是高保真度立體聲響復制。
9、最后的第三沉浸式音頻方法是基于對象的音頻,其將聽覺場景表示為單獨的音頻元素(例如歌手、鼓、吉他)的集合,伴隨有關于例如它們在音頻場景中的位置的信息,使得它們可以在再現系統處被渲染到它們的預期位置。這給予基于對象的音頻很大的靈活性和交互性,因為每個對象保持離散并且可以被單獨操縱。
10、除了基本方法之外,正在開發新的多聲道編解碼技術,諸如例如參考文獻[5]中描述的元數據輔助空間音頻(masa),參考文獻[5]的全部內容通過引用并入本文。在masa方法中,在masa分析器中生成masa元數據(例如方向、能量比、擴展相干性、距離、環繞相干性,所有這些都在若干時頻時隙中),其被量化、編解碼并傳入到比特流中,而masa音頻聲道被視為由核心編碼器編解碼的(多)單聲道或(多)立體聲傳送信號。在masa解碼器處,masa元數據然后引導解碼和渲染過程以重建輸出空間聲音。
11、用于實現沉浸式體驗的上述音頻方法中的每一個都存在優點和缺點。因此,常見的是,代替僅一種音頻方法,在復雜的音頻系統中組合若干音頻方法以創建沉浸式聽覺場景。示例可以是將基于場景的音頻(sba)或masa與基于對象的音頻(例如sba或masa與幾個離散音頻對象)組合的音頻系統。
12、近年來,3gpp開始致力于基于如參考文獻[1]中描述的evs編解碼器開發如參考文獻[2]中描述的用于被稱為ivas(沉浸式語音和音頻服務)的沉浸式服務的3d音頻編解碼器,參考文獻[2]的全部內容通過引用并入本文。ivas編解碼器是多信道編解碼器,其中比特速率通常隨著經編解碼及發送信道的數量增加而要求更高。
13、因此,多信道編解碼器中的dtx操作需要解決(a)保持低sid比特速率與(b)使用要表示的大量信道之間的權衡。例如,如果每個信道將由其自己的sid表示,則總編解碼器sid比特速率將太高。因此,需要有效的dtx方法和sid編解碼。
技術實現思路
1、根據第一方面,本公開涉及一種用于基于對象的音頻編解碼器中的音頻對象的不連續傳輸(dtx)的方法,所述音頻對象包括各自的音頻流,所述方法包括:分析音頻流以產生關于音頻對象的語音或信號活動信息;響應于關于所述音頻對象的所述活動信息,檢測所述音頻對象的dtx信號段和所述dtx信號段內的sid幀,其中,所述段和幀檢測包括(a)更新非活動幀的全局sid計數器,以及(b)取決于所述全局sid計數器的值,用信號通知所述dtx信號段內檢測到的sid幀;以及使用sid幀編解碼對所述用信號通知的、檢測到的sid幀進行編碼(encode)。
2、根據另一方面,本公開涉及一種用于基于對象的音頻編解碼器中的音頻對象的不連續傳輸(dtx)的設備,所述音頻對象包括各自的音頻流,所述設備包括:音頻流的分析器,用于產生關于音頻對象的語音或信號活動信息;dtx控制器,用于響應于關于音頻對象的活動信息,檢測音頻對象的dtx信號段和dtx信號段內的sid幀,其中dtx控制器(a)更新非活動幀的全局sid計數器,以及(b)取決于全局sid計數器的值,用信號通知dtx信號段內檢測到的sid幀;以及使用sid幀編解碼的用信號通知的、檢測到的sid幀的編碼器。
3、根據另一方面,本公開描述了一種用于解碼不連續傳輸(dtx)操作期間的音頻對象的方法,每個音頻對象包括具有元數據(md)的音頻流,md包括至少一個md參數,該方法包括:對元數據進行解碼,包括調整md參數的值以降低幀之間的所述md參數的差異;以及解碼所述音頻流。
4、根據第四方面,本公開公開了一種用于解碼不連續傳輸(dtx)操作期間的音頻對象的設備,每個音頻對象包括具有元數據(md)的音頻流,md包括至少一個md參數,該設備包括:元數據解碼器,用于對元數據進行解碼,其中元數據解碼器調整md參數的值以降低幀之間的所述md參數的差異;以及音頻流解碼器,用于解碼音頻流。
5、(a)用于基于對象的音頻編解碼器中的音頻對象的不連續傳輸(dtx)的方法和設備以及(b)用于解碼不連續傳輸(dtx)操作期間的音頻對象的方法和設備的前述和其他目的、優點和特征將在閱讀僅通過示例的方式參考附圖給出的其說明性實施例的以下非限制性描述時變得更加顯而易見。