本申請涉及信息處理,尤其涉及一種視頻處理方法、裝置和設備。
背景技術:
1、隨著視頻采集設備的普及,各場景下的視頻數據總量呈爆發式增長。視頻中包含有豐富的信息,從內容的角度來看,包括顯示對象、環境場景等;從信息類型的角度來看,包括音頻信息、圖像信息、時間信息等,為了充分利用和發揮視頻數據中蘊含的信息,通常需要對視頻的內容進行識別。
2、近年來,隨著深度學習和卷積神經網絡等神經網絡模型的興起,計算機系統能夠更好地理解和處理視頻數據,特別是在復雜場景下取得更優越的性能,提高了視頻內容識別的準確性。
3、傳統的視頻識別方法通常需要對視頻的全部內容進行識別,需要從視頻中的大量數據識別出對應的對象信息。這些復雜的視頻識別方法往往難以在短時間內完成識別任務,而且需要按照工作人員的配置進行識別,無法滿足個性化需求。
技術實現思路
1、有鑒于此,本申請提供一種視頻處理方法、裝置和設備,用以實現視頻的多樣化處理需求。
2、具體地,本申請是通過如下技術方案實現的:
3、本申請第一方面提供一種視頻處理方法,所述方法包括:
4、針對待識別視頻,利用預先訓練好的識別模型對預先為所述待識別視頻配置的處理需求進行識別,得到所述處理需求對應的意圖、以及所述處理需求對應的關鍵語音點識別方式;
5、獲取所述待識別視頻的音頻和圖像序列;
6、按照所述關鍵語音點識別方式,從所述音頻中識別出與所述意圖相關的關鍵語音點;
7、將所述圖像序列中與所述關鍵語音點對應的圖像確定為關鍵幀圖像;
8、基于所述意圖,對所述關鍵幀圖像進行處理,以得到所述意圖對應的處理結果。
9、本申請第二方面提供一種視頻處理裝置,所述裝置包括確定模塊、獲取模塊、識別模塊和處理模塊;其中,
10、所述確定模塊,用于針對待識別視頻,利用預先訓練好的識別模型對預先為所述待識別視頻配置的處理需求進行識別,得到所述處理需求對應的意圖、以及所述處理需求對應的關鍵語音點識別方式;
11、所述獲取模塊,用于獲取所述待識別視頻的音頻和圖像序列;
12、所述識別模塊,用于按照所述關鍵語音點識別方式,從所述音頻中識別出與所述意圖相關的關鍵語音點;
13、所述確定模塊,用于將所述圖像序列中與所述關鍵語音點對應的圖像確定為關鍵幀圖像;
14、所述處理模塊,用于基于所述意圖,對所述關鍵幀圖像進行處理,以得到所述意圖對應的處理結果。
15、本申請第三方面提供一種視頻處理設備,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現本申請第一方面提供的任一項所述方法的步驟。
16、本申請第四方面提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現本申請第一方面提供的任一項所述方法的步驟。
17、本申請提供的視頻處理方法、裝置和設備,首先針對待識別視頻,利用預先訓練好的識別模型對預先為待識別視頻配置的處理需求進行識別,得到處理需求對應的意圖、以及處理需求對應的關鍵語音點識別方式,然后獲取待識別視頻的音頻和圖像序列,進而按照關鍵語音點識別方式,從音頻中識別出與意圖相關的關鍵語音點,再將圖像序列中與關鍵語音點對應的圖像確定為關鍵幀圖像,最后基于意圖,對關鍵幀圖像進行處理,以得到意圖對應的處理結果。這樣,通過關鍵語音點識別方式獲得關鍵語音點,進而基于關鍵語音點,確定關鍵幀圖像,最后基于意圖,對關鍵幀圖像進行處理,得到待識別視頻的處理結果。這樣,不僅可以滿足不同的待處理視頻的處理需求,解決復雜的待處理視頻的多樣化處理需求,還不需要對全部的視頻幀進行處理,可以快速、準確的獲取處理結果,可節省計算資源,提高處理的效率。
1.一種視頻處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述關鍵語音點識別方式為第一類識別方式時;所述按照所述關鍵語音點識別方式,從所述音頻中識別出與所述意圖相關的關鍵語音點,包括:
3.根據權利要求1所述的方法,其特征在于,所述關鍵語音點識別方式為第二類識別方式時;所述按照所述關鍵語音點識別方式,從所述音頻中識別出與所述意圖相關的關鍵語音點,包括:
4.根據權利要求3所述的方法,其特征在于,所述基于所述語義識別結果,確定所述關鍵語音點,包括:
5.根據權利要求1所述的方法,其特征在于,在所述意圖指示識別關鍵幀圖像時;所述基于所述意圖,對所述關鍵幀圖像進行處理,得到所述意圖對應的處理結果,包括:
6.根據權利要求1所述的方法,其特征在于,在所述意圖用于指示對關鍵幀圖像進行圖像識別時;所述基于所述意圖,對所述關鍵幀圖像進行處理,得到所述意圖對應的處理結果,包括:
7.一種視頻處理裝置,其特征在于,所述裝置包括確定模塊、獲取模塊、識別模塊和處理模塊;其中,
8.根據權利要求7所述的裝置,其特征在于,所述識別模塊,具體用于在所述關鍵語音點識別方式為第一類識別方式時,從預先建立的音頻庫中查找與所述意圖的第一類關鍵詞匹配的音頻片段;所述第一類關鍵詞為與音頻相關的關鍵詞;
9.一種視頻處理設備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1-6任一項所述方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現權利要求1-6任一項所述方法的步驟。