本公開的實施例總體上涉及視頻處理技術,并且更具體地,涉及用于視頻編碼的神經網絡架構。
背景技術:
1、如今,數字視頻能力正被應用于人們生活的各個方面。針對視頻編碼/解碼,已經提出了多種類型的視頻壓縮技術,諸如mpeg-2、mpeg-4、itu-th.263、itu-th.264/mpeg-4第10部分高級視頻編解碼(avc)、itu-th.265高效視頻編解碼(hevc)標準、多功能視頻編解碼(vvc)標準。然而,總體上期望進一步提高視頻編解碼技術的編解碼效率。
技術實現思路
1、本公開的實施例提供了一種用于視頻編解碼的神經網絡架構的方案。
2、在第一方面,一種用于視頻處理的方法被提出。該方法包括:獲取用于處理視頻的神經網絡(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;以及根據nn模型,執行視頻的當前視頻塊與視頻的比特流之間的轉換。根據本公開的第一方面的方法提供了用于視頻編解碼的高效網絡架構,該架構可以改進性能-復雜度的權衡。以這種方式,編解碼性能可以進一步被提高。
3、在第二方面,一種用于處理視頻數據的裝置被提出。該用于處理視頻數據的裝置包括處理器和具有指令的非暫態存儲器,其中該指令在由處理器執行時使處理器執行根據第一方面的方法。
4、在第三方面,一種非暫態計算機可讀存儲介質被提出。該非暫態計算機可讀存儲介質存儲有指令,該指令使處理器執行根據第一方面的方法。
5、在第四方面,一種非暫態計算機可讀記錄介質被提出。該非暫態計算機可讀記錄介質存儲視頻的比特流,該比特流由被視頻處理裝置執行的方法生成。該方法包括:獲取用于處理視頻的神經網絡(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;以及根據nn模型,生成視頻的比特流。
6、在第五方面,一種用于存儲視頻的比特流的方法被提出。該方法包括:獲取用于處理視頻的神經網絡(nn)模型,該nn模型包括至少一個基本塊,其中基本塊包括:多個分支,用于并行處理基本塊的輸入,分支包括至少一個卷積層和至少一個激活層,以及多個層,用于串行處理多個分支的輸出的組合,多個層包括至少一個卷積層和至少一個激活層;根據nn模型,生成視頻的比特流;以及將比特流存儲在非暫態計算機可讀記錄介質中。
7、本
技術實現要素:
被提供以在簡化形式中引入概念的選擇,這將在以下具體實施方式中被進一步描述。本發明內容不旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在被用于限制所要求保護的主題的范圍。
1.一種用于視頻處理的方法,包括:
2.根據權利要求1所述的方法,其中在基本塊內,分支包括接收所述基本塊的所述輸入的單個卷積層和接收所述單個卷積層的輸出的單個激活層。
3.根據權利要求1或2所述的方法,其中在基本塊內,分支的數目是2;和/或
4.根據權利要求1至3中任一項所述的方法,其中在基本塊內,在先前層的輸出被饋送到多個下一層中的情況下,所述多個下一層中的每個下一層的輸入與所述先前層的所述輸出相同。
5.根據權利要求1至4中任一項所述的方法,其中在基本塊內,在多個先前層的輸出被饋送到下一層中的情況下,所述下一層的輸入是所述多個先前層的所述輸出沿著通道維度的拼接。
6.根據權利要求1至5中任一項所述的方法,其中被包括在基本塊中的至少一個激活層被配置為以下至少一項:非線性函數或線性函數;和/或
7.根據權利要求1至6中任一項所述的方法,其中被包括在所述多個分支中的至少一個激活層被配置為非線性函數,并且被包括在所述多個層中的至少一個激活層被配置為線性函數;和/或
8.根據權利要求1至7中任一項所述的方法,其中被包括在基本塊中的卷積層被配置有相同的核尺寸,或者
9.根據權利要求8所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層;并且
10.根據權利要求8所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層;并且
11.根據權利要求1至10中任一項所述的方法,其中被包括在基本塊中的卷積層中的輸出通道的數目相同;或者
12.根據權利要求1至11中任一項所述的方法,其中被包括在基本塊的所述多個分支中的卷積層被配置有不同的核尺寸并且被配置有不同數目的輸出通道;并且
13.根據權利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,所述基本塊的所述多個層包括兩個卷積層,并且被包括在所述基本塊的兩個分支中的兩個卷積層的輸入通道的數目被記作n,
14.根據權利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,所述基本塊的所述多個層包括兩個卷積層,并且被包括在所述基本塊的兩個分支中的兩個卷積層的輸入通道的數目被記作n,
15.根據權利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層,
16.根據權利要求12所述的方法,其中兩個分支被包括在基本塊中,每個所述分支包括一個卷積層,并且所述基本塊的所述多個層包括兩個卷積層,
17.根據權利要求1至16中任一項所述的方法,其中與基本塊中的所述多個分支相關的配置、與基本塊中的所述多個層相關的配置、與基本塊中的所述激活層相關的配置和/或與基本塊中的所述卷積層相關的配置基于以下至少一項而被確定:
18.根據權利要求1至17中任一項所述的方法,其中在基本塊內,
19.根據權利要求18所述的方法,其中被包括在所述基本塊的所述多個分支中的所述激活層被配置為以下至少一項:參數化修正線性單元(prelu)、帶泄漏修正線性單元(lrelu)或修正線性單元(relu);和/或
20.根據權利要求1至19中任一項所述的方法,其中被包括在所述nn模型中的所述至少一個基本塊包括至少一個第一類型的基本塊和/或至少一個第二類型的基本塊;
21.根據權利要求1至20中任一項所述的方法,其中所述nn模型包括頭部部分、骨干部分和尾部部分,
22.根據權利要求21所述的方法,其中所述頭部部分、所述骨干部分或所述尾部部分中的至少一個各自包括串聯連接的第一數目的所述第一類型的基本塊;或者
23.根據權利要求1至22中任一項所述的方法,其中整數運算被應用在所述nn模型中;并且
24.一種用于處理視頻數據的裝置,包括處理器和其上具有指令的非暫態存儲器,其中所述指令在由所述處理器執行時使所述處理器執行根據權利要求1至23中任一項所述的方法。
25.一種非暫態計算機可讀存儲介質,存儲指令,所述指令使處理器執行根據權利要求1至23中任一項所述的方法。
26.一種非暫態計算機可讀記錄介質,存儲視頻的比特流,所述比特流由被視頻處理裝置執行的方法生成,其中所述方法包括:
27.一種用于存儲視頻的比特流的方法,包括: