本發明涉及自然語言處理領域,特別涉及一種基于癥狀序列的社交媒體用戶抑郁檢測方法與系統。
背景技術:
1、社交媒體的普及為研究者提供了一個動態的觀察窗口,使得人們可以隨時隨地分享自己的生活和情感狀態。這種實時性為抑郁癥的早期發現和干預提供了前所未有的機會。然而,傳統的臨床診斷方法存在諸多局限性。一方面,問卷調查和臨床訪談依賴于患者對主觀感受的自我描述,易受患者主觀意愿和社會期許的影響,使得診斷結果不夠準確。另一方面,專業的精神科醫療資源有限,無法滿足大規模篩查的需求,導致許多抑郁癥患者未能得到及時的診斷和治療。此外,現有的一些抑郁自動檢測技術,如基于行為特征分析的方法,往往只能捕捉到部分抑郁癥狀,且數據的全面性和檢測的準確性仍有待提高。
2、抑郁癥患者常常表現出持續的情緒低落,這種情緒狀態在語言中表現為頻繁使用消極情緒詞匯,包括直接的負面詞匯和隱晦的情緒表述。傳統方法往往依賴于患者在訪談或問卷中的自我報告,但這些方法無法捕捉到語言中的細微情緒變化,也無法量化情緒狀態的動態發展。
3、多變量時間序列是指在多個變量上隨時間變化的觀測值序列。與單變量時間序列不同,多變量時間序列包含了多個相關變量的動態變化信息。例如,在抑郁癥預測中,用戶的情緒特征、癥狀特征等都可以看作是不同的變量,它們隨著時間的推移而變化,共同構成了多變量時間序列。傳統方法通常只能處理單變量數據,無法捕捉多個變量之間的復雜關系。
技術實現思路
1、鑒于上述狀況,本發明的主要目的是為了提出一種基于癥狀序列的社交媒體用戶抑郁檢測方法與系統,以解決上述技術問題。
2、本發明提出一種基于癥狀序列的社交媒體用戶抑郁檢測方法,所述方法包括如下步驟:
3、步驟1、輸入用戶原始發布文章并給定推文序列,對推文序列進行數據清洗,得到清洗后的推文序列;
4、步驟2、將清洗后的推文序列以及dsm-5手冊中抑郁癥狀描述文本序列分別輸入至句嵌入模型中進行編碼,以得到帖子與癥狀描述的相似度得分序列;
5、步驟3、對帖子與癥狀描述的相似度得分序列進行癥狀動態指標計算,以得到癥狀的動態指標集合;
6、步驟4、將清洗后的推文序列輸入至預訓練模型中進行情感分析,生成情緒得分序列,將情緒得分序列輸入至雙向門控循環單元網絡(bi-gru)中進行情緒捕捉處理,得到上下文關聯的情緒序列;
7、步驟5、將帖子與癥狀描述的相似度得分序列、癥狀的動態指標集合和上下文關聯的情緒序列進行特征融合,得到用戶推文序列的整體特征表示;
8、步驟6、將用戶推文序列的整體特征表示輸入至多變量時間序列分類器中進行分類,得到分類結果。
9、本發明還提出一種基于癥狀序列的社交媒體用戶抑郁檢測系統,所述系統包括:
10、數據清洗模塊,用于:
11、輸入用戶原始發布文章并給定推文序列,對推文序列進行數據清洗,得到清洗后的推文序列;
12、癥狀特征提取模塊,用于:
13、將清洗后的推文序列以及dsm-5手冊中抑郁癥狀描述文本序列分別輸入至句嵌入模型中進行編碼,以得到帖子與癥狀描述的相似度得分序列;
14、癥狀動態指標提取模塊,用于:
15、對帖子與癥狀描述的相似度得分序列進行癥狀動態指標計算,以得到癥狀的動態指標集合;
16、情緒特征提取模塊,用于:
17、將清洗后的推文序列輸入至預訓練模型中進行情感分析,生成情緒得分序列,將情緒得分序列輸入至雙向門控循環單元網絡中進行情緒捕捉處理,得到上下文關聯的情緒序列;
18、特征融合模塊,用于:
19、將帖子與癥狀描述的相似度得分序列、癥狀的動態指標集合和上下文關聯的情緒序列進行特征融合,得到用戶推文序列的整體特征表示;
20、預測模塊,用于:
21、將用戶推文序列的整體特征表示輸入至多變量時間序列分類器中進行分類,得到分類結果。
22、與現有技術相比,本發明有益效果如下:
23、1、本發明通過結合癥狀特征和情緒特征,能夠更全面地刻畫用戶的抑郁狀態,提高模型的預測準確性;抑郁癥患者在情緒和癥狀上都會表現出特定的特征,單獨依靠某一方面的特征可能會遺漏一些重要的信息;而本發明將兩者結合起來,綜合考慮用戶在社交媒體上表達的情緒變化以及與抑郁癥狀相關的語義信息,從而更全面地評估用戶的抑郁狀態程度;利用sentencebert模型對清洗后的推文序列和dsm-5手冊中的抑郁癥狀描述文本序列進行編碼,計算二者高維語義向量的相似度序列作為癥狀得分序列,能夠更準確地捕捉用戶推文中與抑郁癥狀相關的語義信息,提高癥狀特征提取的準確性和有效性;sentencebert模型具有強大的語義理解能力,可以將文本映射到高維語義空間中,從而更好地衡量文本之間的相似性;通過與dsm-5中的抑郁癥狀描述進行對比,可以精確地找出用戶推文中可能反映抑郁癥狀的內容;
24、2、本發明通過sentimentbert模型得到情緒得分序列,并將該序列輸入bi-gru以獲得上下文關聯的情緒得分序列,能夠更好地捕捉用戶情緒的動態變化和上下文關系,提高情緒特征提取的準確性和全面性;sentimentbert模型能夠對推文進行情感分析,給出情緒得分,而bi-gru可以考慮上下文信息,使得情緒特征更加準確地反映用戶在不同時間點的情緒狀態及其相互影響;將癥狀序列、動態指標和上下文關聯的情緒得分序列進行融合,得到用戶推文的整體表征序列,能夠綜合考慮多種特征對抑郁檢測的影響,提高模型的預測性能;這種融合策略將不同類型的特征有機結合起來,使得整體表示序列包含了豐富的信息,能夠更全面地描述用戶的抑郁狀態,從而為后續的分類預測提供更有力的支持;
25、3、本發明采用多變量時間序列分類器對整體表示序列進行分類預測,能夠充分利用多變量時間序列數據中的動態變化信息,提高抑郁分類結果的準確性和可靠性;多變量時間序列分類器可以同時處理多個變量的時間序列數據,捕捉變量之間的相關性和動態變化趨勢,從而更準確地對用戶的抑郁狀態進行分類。
26、本發明的附加方面與優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實施例了解到。
1.一種基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,所述方法包括如下步驟:
2.根據權利要求1所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,在所述步驟2中,將清洗后的推文序列以及dsm-5手冊中抑郁癥狀描述文本序列分別輸入至句嵌入模型中進行編碼,以得到帖子與癥狀描述的相似度得分序列,具體包括如下步驟:
3.根據權利要求2所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,將清洗后的推文序列以及dsm-5手冊中抑郁癥狀描述文本序列分別輸入至句嵌入模型中進行編碼,分別得到用戶推文的高維語義向量表示和癥狀描述文本的高維語義向量表示,對應過程存在的關系式如下:
4.根據權利要求3所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,在所述步驟3中,對帖子與癥狀描述的相似度得分序列進行癥狀動態指標計算,以得到癥狀的動態指標集合,具體包括如下步驟:
5.根據權利要求4所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,對帖子與癥狀描述的相似度得分序列進行癥狀動態指標計算,分別得到平均癥狀得分、癥狀變化性、序列中所有上升過程的上升率平均值和序列中所有恢復過程的恢復率平均值,對應過程存在的關系式如下:
6.根據權利要求5所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,在所述步驟4中,將清洗后的推文序列輸入至預訓練模型中進行情感分析,生成情緒得分序列,將情緒得分序列輸入至雙向門控循環單元網絡中進行情緒捕捉處理,得到上下文關聯的情緒序列,對應過程存在的關系式如下:
7.根據權利要求6所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,在所述步驟5中,將帖子與癥狀描述的相似度得分序列、癥狀的動態指標集合和上下文關聯的情緒序列進行特征融合,得到用戶推文序列的整體特征表示,對應過程存在的關系式如下:
8.根據權利要求7所述的基于癥狀序列的社交媒體用戶抑郁檢測方法,其特征在于,在所述步驟6中,將用戶推文序列的整體特征表示輸入至多變量時間序列分類器中進行分類,得到分類結果,對應過程存在的關系式如下:
9.一種基于癥狀序列的社交媒體用戶抑郁檢測系統,其特征在于,所述系統應用如上述權利要求1至8任意一種基于癥狀序列的社交媒體用戶抑郁檢測方法,所述系統包括: