本發明屬于社交推薦,具體涉及一種基于反饋強化學習的多維屬性特征的社交推薦預測方法。
背景技術:
1、隨著社交網絡平臺的不斷發展與升級,社交推薦已成為滿足用戶高質量信息需求的重要技術手段。然而,傳統的社交推薦方法主要依賴于用戶的歷史行為數據和顯性社交關系建模,在面對動態復雜的社交場景時表現出顯著局限性。這些方法通常難以捕捉用戶行為背后更深層次的多維屬性特征,包括個體心理狀態、認知特征、社交關系的動態演化,以及神經信號與群體間神經同步等隱性變量。這些因素在用戶偏好形成和決策過程中起到關鍵作用。但傳統模型缺乏有效的機制將其整合用于推薦預測。此外,用戶偏好具有動態性和時效性,會隨時間、社交環境及互動情境發生顯著變化,而現有方法多采用靜態或單一維度建模,難以及時更新模型以反映用戶偏好的轉移規律,從而影響推薦效果的準確性和個性化程度。
2、盡管已有部分研究嘗試了從社交網絡結構或用戶畫像出發,挖掘群體互動對決策產生的潛移默化影響,但對多維度屬性之間潛在的非線性耦合依然缺乏有效整合。一方面,社交關系、心理測量數據及神經生理信號之間往往存在多層次且高度非線性的耦合關系,傳統方法難以通過簡單的并置或線性疊加來實現有效建模,從而可能導致信息冗余與特征沖突,無法充分挖掘多維屬性在用戶偏好形成中的深層次作用;另一方面,用戶偏好隨著時間、社交關系及情境變化而動態調整,而現有方法多基于靜態建模,難以及時響應高頻變化,從而無法捕捉潛在的偏好轉移機制。
技術實現思路
1、本發明提供了一種基于反饋強化學習的多維屬性特征的社交推薦預測方法解決上述提到的技術問題,具體采用如下的技術方案:
2、一種基于反饋強化學習的多維屬性特征的社交推薦預測方法,包括以下步驟:
3、s1:確定實驗對象和目標任務,根據目標群體招募若干組同性別被試;
4、s2:向被試呈現實驗任務,分兩個階段采集被試者的各項數據:
5、第一階段,所有被試者以獨立參與者身份完成產品偏好前測任務,記錄選擇結果和自信心評分,并采集每位被試者的個人特質數據,得到第一階段選擇偏好、第一階段自信心評分和個人特質數據;
6、第二階段,通過抽簽分配被試者的角色為推薦者和消費者,分別完成社會距離評分和雙人推件實驗,記錄雙人推薦實驗過程中的推薦者和消費者的腦電信號數據,同時記錄消費者的選擇結果和自信心評分,得到社會關系數據、第二階段選擇偏好、第二階段自信心評分和腦電信號數據;
7、s3:對兩階段收集的數據分別進行處理:
8、對于第一階段的數據,處理后得到第一階段選擇偏好特征、第一階段自信心評分特征和個人特質特征;
9、對于第二階段的數據,處理后得到社會關系特征、第二階段選擇偏好特征、第二階段自信心評分特征、初始屏神經相似性、推薦反饋階段plv和選擇反饋階段plv;
10、s4:使用貝葉斯更新方法動態建模消費者選擇偏好特征和自信心評分特征,并分別計算選擇kl散度特征和自信kl散度特征;
11、s5:構建多維特征向量,多維特征向量包含第一階段選擇偏好特征、第一階段自信心評分特征、個人特質特征、社會關系特征、第二階段選擇偏好特征、第二階段自信心評分特征、初始屏神經相似性、推薦反饋階段plv、選擇反饋階段plv、選擇kl散度特征和自信kl散度特征,利用多維特征向量構建強化學習框架,通過獎勵函數動態調整推薦策略,優化推薦效果,根據優化后的推薦策略,對用戶進行個性化推薦。
12、進一步地,在步驟s2中,個人特質數據包含五大人格特質、社會價值取向和認知靈活性;
13、通過標準化問卷評估五大人格特質;
14、通過標準化實驗任務評估社會價值取向;
15、通過認知靈活性量表評估認知靈活性。
16、進一步地,在步驟s2中,在第一階段實驗完成后間隔7-14天進行第二階段實驗。
17、進一步地,在步驟s2中,參與者在完成每輪產品選擇后,通過likert評分對自身選擇的確定性進行評估得到自信心評分。
18、進一步地,在步驟s3中,對于第一階段的數據的處理如下:
19、對于第一階段選擇偏好,使用beta分布來建模得到第一階段選擇偏好特征;
20、對于第一階段自信心評分,使用高斯分布建模得到第一階段自信心評分特征;
21、對于個人特質數據,對人格特質的評分進行z-score標準化處理,再使用主成分分析法,將多個人格特質項整合為一個關鍵維度得到個人特質特征。
22、進一步地,在步驟s3中,對于第二階段的數據的處理如下:
23、對于社會關系數據,通過下述公式計算社會關系特征綜合指數sri作為社會關系特征:
24、sri=w1z社會距離+w2z信任
25、其中,z社會距離表示社會距離評分,z信任表示信任感評分,w1表示社會距離權重,w2表示信任權重;
26、對于第二階段選擇偏好,使用beta分布來建模得到第二階段選擇偏好特征;
27、對于第二階段自信心評分,使用高斯分布建模得到第二階段自信心評分特征;
28、對于腦電信號數據,計算初始屏神經相似性、推薦反饋階段plv和選擇反饋階段plv。
29、進一步地,步驟s4具體為:
30、使用beta分布建模第一階段選擇偏好得到第一階段選擇偏好的更新前分布;
31、結合第二階段選擇偏好更新beta分布,通過貝葉斯更新得到第一階段選擇偏好的更新后分布;
32、使用kl散度量化選擇偏好的更新前后的分布差異得到選擇kl散度特征;
33、使用高斯分布建模第一階段自信心評分得到第一階段自信心評分的更新前分布;
34、結合推薦反饋階段plv和選擇反饋階段plv進行修正,通過貝葉斯更新得到更新后分布;
35、使用kl散度量化自信心的更新前后的分布差異得到自信kl散度特征。
36、進一步地,在步驟s5中,利用多維特征向量構建強化學習框架,通過獎勵函數動態調整推薦策略,優化推薦效果的具體方法為:
37、獎勵函數根據選擇偏好、自信心和神經特征的變化動態計算,獎勵函數的計算公式為:
38、r(st,at)=w1δpnew+w2δμconf,new+w3δplvrecommend
39、其中,δpnew為選擇偏好的變化幅度,δμconf,new為自信心均值的變化,δplvrecommend為推薦反饋階段腦間同步性的提升,w1、w2、w3為權重系數,通過回歸分析確定。
40、進一步地,在步驟s5中,通過強化學習算法q?learning動態優化推薦策略。
41、進一步地,所述基于反饋強化學習的多維屬性特征的社交推薦預測方法還包含:
42、根據優化后的推薦策略,對用戶進行個性化推薦,并通過反饋機制實時調整推薦策略,以適應用戶偏好的動態變化。
43、本發明的有益之處在于所提供的基于反饋強化學習的多維屬性特征的社交推薦預測方法,通過將用戶行為、心理特征、神經信號及社交關系的動態演化納入多維數據建模,能夠實時捕捉用戶偏好在復雜環境中的動態變化。