专利 一种文本违规词的挖掘方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211071495.8 (22)申请日 2022.09.02 (71)申请人广州趣丸网络科技有限公司地址 510000 广东省广州市天河区平云路 163号之二16 01室（部位：自编之01室） (72)发明人邓其春　马金龙　吴文亮　黎子骏　曾锐鸿　张政统　王伟喆　盘子圣　焦南凯　兰翔　徐志坚　谢睿　陈光尧　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师吴玲 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种文本违规词的挖掘方法及装置 (57)摘要本申请公开了一种文本违规词的挖掘方法及装置，方法包括：切分用户输入的待挖掘文本获得多个待挖掘字符，通过违规字符识别模型对待挖掘字符进行模型编码，得到字符向量，对每个字符向量进行维度变换，得到每个待挖掘字符相对每个违规类别的字符违规概率，计算切分待挖掘文本得到的每个待挖掘分词在每个违规类别的单类别违规概率，通过预设阈值过滤各个待挖掘分词，得到各个违规类别下的违规词。可见，从待挖掘文本的每个待挖掘字符出发，分析每个字符的违规类型可能性，得出由字符组成的分词的违规类型可能性，在此基础上通过阈值过滤得到最终各个违规类别下的分词，使最终得到的结果具有较高的可解释性，提升了文本内容违规判断的可靠性。权利要求书3页说明书14页附图3页 CN 115422359 A 2022.12.02 CN 115422359 A 1.一种文本违规词的挖掘方法，其特征在于，包括：切分用户输入的待挖掘文本，获得所述待挖掘文本中的多个待挖掘字符；通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码，得到每个所述待挖掘字符对应的字符向量，每个所述字符向量带有多个违规类别维度；通过所述违规字符识别模型对每个所述字符向量进行维度变换，得到每个待挖掘字符相对每个违规类别的字符违规概率；对于每个所述违规类别，对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理，得到每个待挖掘分词在该违规类别的单类别违规概率，每个所述待挖掘分词为分词处理所述待挖掘文本得到的，每个所述待挖掘分词包含一个或多个所述待挖掘字符；基于每个所述待挖掘分词的各个违规类别的单类别违规概率，通过预设的违规概率阈值过滤各个待挖掘分词，得到过滤后的各个违规类别下的待挖掘分词，并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。 2.根据权利要求1所述的方法，其特征在于，所述基于每个所述待挖掘分词的各个违规类别的单类别违规概率，通过预设的违规概率阈值过滤各个待挖掘分词，得到过滤后的各个违规类别下的待挖掘分词，包括：根据各个待挖掘分词，以及每个待挖掘分词的每个违规类别的单类别违规概率，生成各个待挖掘分词的单词违规类别概率分布；在所述各个待挖掘分词的单词违规类别概率分布上，通过预设的违规概率阈值过滤各个待挖掘分词，得到过滤后的各个违规类别下的违规词。 3.根据权利要求1所述的方法，其特征在于，在通过所述违规字符识别模型对每个所述字符向量进行维度变换，得到每个待挖掘字符相对每个违规类别的字符违规概率之后，还包括：通过所述违规字符识别模型，对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换，得到各个违规类别的概率。 4.根据权利要求1所述的方法，其特征在于，所述违规字符识别模型的建立过程，包括：基于已有的训练字符数据和已有的各个违规类别标签，计算约束违规字符识别模型训练的总损失值；在所述总损失值的约束下，以所述训练字符数据作为训练样本，所述各个违规类别标签作为样本标签，训练得到违规字符识别模型。 5.根据权利要求4所述的方法，其特征在于，所述基于已有的训练字符数据和已有的各个违规类别标签，计算约束违规字符识别模型训练的总损失值，包括：利用下列各式计算约束违规字符识别模型训练的损失公式：权　利　要　求　书 1/3 页 2 CN 115422359 A 2其中， L为所述总损失值， zij为所述训练字符数据中第i个训练字符命中各个违规类别标签中第j个违规类别标签的logit值， m为预设的非对称损失ASL硬阈值边界， yj为第j个违规类别标签， γ为预设的ASL软阈值参数， k为各个违规类别标签的总数量， n为所述字符样本的字符总数， λ为预设正则系数。 6.根据权利要求1所述的方法，其特征在于，在通过所述违规字符识别模型对每个所述字符向量进行维度变换，得到每个待挖掘字符相对每个违规类别的字符违规概率之后，还包括：根据各个待挖掘字符，以及每个待挖掘字符的各个违规类别的字符违规概率，生成各个待挖掘字符的字符违规类别概率分布。 7.根据权利要求1所述的方法，其特征在于，还包括：确定已有的训练字符数据组成的语句的分词知识矩阵；以所述训练字符数据中的各个训练字符的字符违规类别概率分布，以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息，训练所述违规字符识别模型，得到违规分词识别模型。 8.根据权利要求7所述的方法，其特征在于，以所述训练字符数据中的各个训练字符的字符违规类别概率分布，以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息，训练所述违规字符识别模型，得到违规分词识别模型，包括：利用下式确定分词违规类别概率分布矩阵：其中， Wk为分词知识矩阵，为分词违规类别概率分布矩阵， P为所述训练字符数据中的各个训练字符的字符违规类别概率分布的矩阵信息；以所述分词违规类别概率分布矩阵作为训练目标，训练所述违规字符识别模型，得到违规分词识别模型。 9.根据权利要求7或8所述的方法，其特征在于，还包括：通过所述违规分词识别模型对各个待挖掘字符进行模型编码，得到多个析出分词，以权　利　要　求　书 2/3 页 3 CN 115422359 A 3

专利 一种文本违规词的挖掘方法及装置

专利一种文本违规词的挖掘方法及装置