文本中不良文字信息的過濾方法及過濾系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本處理技術(shù)領(lǐng)域,具體涉及文本中不良文字信息的過濾方法及過濾系統(tǒng)。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)時(shí)代,文字內(nèi)容聊天普及,一些不法分子利用互聯(lián)網(wǎng)宣傳一些負(fù)面消息,或牽涉時(shí)政,或造謠傳謠,或攻擊網(wǎng)絡(luò)用戶,造成了負(fù)面影響。為創(chuàng)建一個(gè)文明和諧的互聯(lián)網(wǎng)文字內(nèi)容聊天環(huán)境,對(duì)一些敏感詞匯過濾是必不可少的。
[0003]現(xiàn)有的互聯(lián)網(wǎng)文字過濾系統(tǒng)和方法,雖然也具有一定的文字篩選和過濾功能,但是在系統(tǒng)的整體過濾精度,過濾效率和處理大并發(fā)能力方面,傳統(tǒng)方法在分詞準(zhǔn)確方面缺乏智能型,不能通過學(xué)習(xí)用戶的特征進(jìn)行智能升級(jí)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種文本中不良文字信息的過濾方法及過濾系統(tǒng),解決現(xiàn)有互聯(lián)網(wǎng)文字過濾精度低、速度慢的問題。
[0005]本發(fā)明提供了一種文本中不良文字信息的過濾方法,其包括:
[0006]步驟1,提取待過濾文本;
[0007]步驟2,利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Maxlen的值,通過Mexlen對(duì)所述待過濾文本進(jìn)行分詞;
[0008]步驟3,循環(huán)判斷分詞后的每個(gè)詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0009]在一些實(shí)施例中,優(yōu)選為,所述步驟2包括:
[0010]若所述待過濾文本中包含英文,則將所述英文按英文字符串分詞;
[0011]若所述待過濾文本中包含數(shù)字,則將所述數(shù)字按數(shù)字字符串分詞;
[0012]從所述待過濾文本中提取不包含英文和數(shù)字的待分詞字符串;
[0013 ]利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Max 1 en的值,通過Mex 1 en對(duì)所述待分詞字符串進(jìn)行分詞。
[0014]在一些實(shí)施例中,優(yōu)選為,所述利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Max 1 en的值,通過Mex 1 en對(duì)所述待分詞字符串進(jìn)行分詞包括:
[0015]01)為待分詞字符串S1賦初值;
[0016]02)判斷待分詞字符串S1是否為空;如果未空,輸出分詞后的詞串,及輸出未記錄詞串;
[0017]03)如果待分詞字符串S1不為空,判斷待分詞字符串S1是否為單字,如果是單字,直接分出單字;
[0018]04)如果不是單字,取待分詞字符串S1左邊第一個(gè)字W,通過詞典中哈希表找到對(duì)應(yīng)所述第一個(gè)字W的詞長度WLen;
[0019]05)判斷所述待分詞字符串的長度是否小于詞長度WLen,如果小于,則進(jìn)入07);
[0020]06)如果不小于,取待分詞字符串中長為WLen的字串Word與詞典中長為WLen的詞條逐一匹配;當(dāng)所述字串與某一詞條匹配,輸出該字串;
[0021]07)如果未匹配,判斷WLen是否為2,如果不是,PLen++,轉(zhuǎn)04)
[0022]08)如果07)的結(jié)果為是,將所述字串輸出為未記錄詞串。
[0023]在一些實(shí)施例中,優(yōu)選為,步驟3包括:
[0024]加載敏感詞匯庫;
[0025]將所有分詞后的詞串依次在所述敏感詞匯庫中匹配,若匹配成功,則屏蔽匹配成功的詞串;
[0026]采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0027]在一些實(shí)施例中,優(yōu)選為,若匹配不成功,則直接輸出文本。
[0028]在一些實(shí)施例中,優(yōu)選為,在步驟2和步驟3之間,還包括:將輸出的未記錄詞串添加到詞典中。
[0029]本發(fā)明還提供了一種文本中不良文字信息的過濾系統(tǒng),其包括:
[0030]提取模塊,用于提取待過濾文本;
[0031]分詞模塊,用于利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Maxlen的值,通過Mexlen對(duì)所述待過濾文本進(jìn)行分詞;
[0032]過濾模塊,用于循環(huán)判斷分詞后的每個(gè)詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換所述敏感詞匯后,輸出替換敏感詞匯后的文本。
[0033]在一些實(shí)施例中,優(yōu)選為,所述分詞模塊包括:
[0034]英文分詞單元,若所述待過濾文本中包含英文是,用于將所述英文按英文字符串分詞;
[0035]數(shù)字分詞單元,若所述待過濾文本中包含數(shù)字,用于將所述數(shù)字按數(shù)字字符串分詞;
[0036]提取單元,用于從所述待過濾文本中提取不包含英文和數(shù)字的待分詞字符串;
[0037]動(dòng)態(tài)分詞單元,用于利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Maxlen的值,通過Mexlen對(duì)所述待分詞字符串進(jìn)行分詞。
[0038]在一些實(shí)施例中,優(yōu)選為,所述動(dòng)態(tài)分詞單元執(zhí)行的分詞程序?yàn)?
[0039]01)為待分詞字符串S1賦初值;
[0040]02)判斷待分詞字符串S1是否為空;如果未空,輸出分詞后的詞串,及輸出未記錄詞串;
[0041]03)如果待分詞字符串S1不為空,判斷待分詞字符串S1是否為單字,如果是單字,直接分出單字;
[0042]04)如果不是單字,取待分詞字符串S1左邊第一個(gè)字W,通過詞典中哈希表找到對(duì)應(yīng)所述第一個(gè)字W的詞長度WLen;
[0043]05)判斷所述待分詞字符串的長度是否小于詞長度WLen,如果小于,則進(jìn)入07);
[0044]06)如果不小于,取待分詞字符串中長為WLen的字串Word與詞典中長為WLen的詞條逐一匹配;當(dāng)所述字串與某一詞條匹配,輸出該字串;
[0045]07)如果未匹配,判斷WLen是否為2,如果不是,PLen++,轉(zhuǎn)04)
[0046]08)如果07)的結(jié)果為是,將所述字串輸出為未記錄詞串。
[0047]本發(fā)明實(shí)施例提供的文本中不良文字信息的過濾方法及過濾系統(tǒng),與現(xiàn)有技術(shù)相比,提出利用詞典中詞條的長度動(dòng)態(tài)地確定詞長MaxLen的值,根據(jù)所確定的詞長從待切分字符串左邊取相應(yīng)長度的字符串與詞典匹配,從而解決了分詞過程中MaxLen初始值不變所帶來的長詞被切分錯(cuò)誤和時(shí)間長、效率低的問題。隨后對(duì)分詞后的詞串進(jìn)行敏感判斷,并根據(jù)判斷結(jié)果輸出文本。由于采用了改進(jìn)的分詞方式,因此提高了整體過濾速度和過濾準(zhǔn)確度。
【附圖說明】
[0048]圖1為本發(fā)明一個(gè)實(shí)施例中文本中不良文字信息的過濾方法的流程結(jié)構(gòu)示意圖。
[0049]圖2為本發(fā)明一個(gè)實(shí)施例中詞典的數(shù)據(jù)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0050]下面通過具體的實(shí)施例結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。
[0051]考慮到目前互聯(lián)網(wǎng)或各種信息溝通平臺(tái)對(duì)文本中的不良文字處理速度慢,精確度不高的問題,本發(fā)明提供了文本中不良文字信息的過濾方法及過濾系統(tǒng)。
[0052 ]該文本中不良文字信息的過濾方法包括:
[0053]步驟1,提取待過濾文本;
[0054]步驟2,利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Maxlen的值,通過Mexlen對(duì)待過濾文本進(jìn)行分詞;
[0055]步驟3,循環(huán)判斷分詞后的每個(gè)詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換敏感詞匯后,輸出替換敏感詞匯后的文本。
[0056]—種文本中不良文字信息的過濾系統(tǒng)包括:
[0057]提取模塊,用于提取待過濾文本;
[0058]分詞模塊,用于利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Maxlen的值,通過Mexlen對(duì)待過濾文本進(jìn)行分詞;
[0059]過濾模塊,用于循環(huán)判斷分詞后的每個(gè)詞匯是否為敏感詞匯,如果是敏感詞匯,采用非敏感詞匯替換敏感詞匯后,輸出替換敏感詞匯后的文本。
[0060]提出利用詞典中詞條的長度動(dòng)態(tài)地確定詞長MaxLen的值,根據(jù)所確定的詞長從待切分字符串左邊取相應(yīng)長度的字符串與詞典匹配,從而解決了分詞過程中MaxLen初始值不變所帶來的長詞被切分錯(cuò)誤和時(shí)間長、效率低的問題。隨后對(duì)分詞后的詞串進(jìn)行敏感判斷,并根據(jù)判斷結(jié)果輸出文本。由于采用了改進(jìn)的分詞方式,因此提高了整體過濾速度和過濾準(zhǔn)確度。
[0061]下面,對(duì)技術(shù)具體描述:
[0062]本方法主要應(yīng)用于信息溝通平臺(tái)中文本信息傳送前的文本過濾。具體為:
[0063]—種文本中不良文字信息的過濾方法,其特征在于,包括:
[0064]步驟101,提取待過濾文本;
[0065]當(dāng)用戶之間進(jìn)行信息溝通時(shí),用戶通常將信息傳送到平臺(tái)服務(wù)器,平臺(tái)服務(wù)器提取該信息,并將其確定為待過濾文本。
[0066]在對(duì)該信息進(jìn)行過濾時(shí)需要提高過濾速度,以不延遲用戶間溝通速度為準(zhǔn),保證用戶間順暢的信息溝通。
[0067]步驟102,利用詞典中詞條長度動(dòng)態(tài)確定最大匹配算法中詞長Max