专利 一种社交文本分词方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210890825.X (22)申请日 2022.07.27 (71)申请人厦门市美亚柏科信息安全研究所有限公司地址 361000 福建省厦门市思明区软件园观日路14 号 (72)发明人彭闯　吴俊毅　赵建强　陈诚　陈思萌　张辉极　 (74)专利代理机构厦门福贝知识产权代理事务所(普通合伙) 35235 专利代理师陈远洋 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01)G06F 40/30(2020.01) (54)发明名称一种社交文本分词方法及装置 (57)摘要本申请提出了根据本发明的一个方面提出了一种社交文本分词方法，该方法包括以下步骤：构建词典，词典包括语料数据的词频和语料数据的词性；基于构建的词典，利用逆向匹配算法对待分词文本进行分词，获得第一次分词结果及对应的词性标注；根据词性标注进行语法分析，将待分词文本切分成多个句子；采用动态规划的后向最大匹配算法和HMM算法将步骤S3中切分后的多个句子分别进行精细分词，获得多个第二次分词结果；以及将多个第二次分词结果进行合并，获得最终的分词结果。通过上述技术方案能够有效解决社交文本中句法不一，口语化严重等问题，从而为社交文本提供更准确的分词结果。权利要求书2页说明书10页附图5页 CN 115186656 A 2022.10.14 CN 115186656 A 1.一种社交文本分词方法，其特征在于，包括以下步骤： S1、构建词典，所述词典包括语料数据的词频和语料数据的词性； S2、基于步骤S1构建的词典，利用逆向匹配算法对待分词文本进行分词，获得第一次分词结果及对应的词性标注； S3、根据所述词性标注进行语法分析，将所述待分词文本切分成多个句子； S4、采用动态规划的后向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子分别进行精细分词，获得多个第二次分词结果；以及 S5、将所述多个第二次分词结果进行合并，获得最终的分词结果。 2.根据权利要求1所述的一种社交文本分词方法，其特征在于，在步骤S1中，构建词典，所述词典包括语料数据的词频和语料数据的词性，包括以下子步骤： S11、搜集语料数据； S12、统计所述语料数据的词频，并根据词性规则对所述语料数据进行词性标注； S13、将所述语料数据、所述语料数据的词频以及所述所述语料数据的词性存储至所述词典中； S14、利用字典树的数据结构将所述词典构造成后缀字典树。 3.根据权利要求2所述的一种社交文本分词方法，其特征在于，在步骤S14中，利用字典树的数据结构将所述词典构造成后缀字典树，其中所述数据结构利用python实现，采用 dict的数据结构存储。 4.根据权利要求1所述的一种社交文本分词方法，其特征在于，在步骤S1中，所述语料数据的词性包括形容词、名词、副词和动词。 5.根据权利要求1所述的一种社交文本分词方法，其特征在于，在步骤S3中，根据所述词性标注进行语法分析，将所述待分词文本切分成多个句子，通过预设以下语法规则进行切分： a、以动词加名词为组合进行切分，切分时采用贪婪匹配； b、以副词加动词为组合进行切分，切分时采用非贪婪匹配； c、以形容词加名词为组合进行切分，切分时采用非贪婪匹配； d、规则之外的句子单独成句。 6.根据权利要求1所述的一种社交文本分词方法，其特征在于，在步骤S4中，采用动态规划的后向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子分别进行精细分词，获得多个第二次分词结果，包括以下子步骤： S41、利用动态规划的后向最大匹配算法求解出最优解，进行分词； S42、采用H MM算法将单字合成句子进行H MM分词，进行补充词发现。 7.根据权利要求6所述的一种社交文本分词方法，其特征在于，在步骤S41中，利用动态规划的后向最大匹配算法求解出最优解，进行分词，包括以下子步骤： S411、将待分词的所述多个句子切分为有向无环图； S412、计算所述有向无环图中各个节点的概率； S413、动态的选择最大的概率值作为切分节点来切分句子。 8.根据权利要求6所述的一种社交文本分词方法，其特征在于，在步骤S42中，采用HMM 算法将单字合成句子进行HMM分词，采用4 ‑tag进行标注，标注集合为{S,B,M,E}，其中B代表权　利　要　求　书 1/2 页 2 CN 115186656 A 2Begin，即为词开头； M代表Middle，即为词中间； E代表End，即为词结尾； S代表Single，即为单字词。 9.一种社交文本分词装置，其特征在于，所述装置包括：构建词典模块，用于构建词典，所述词典包括语料数据的词频和语料数据的词性；以及第一次分词模块，用于基于构建词典模块构建的词典，利用逆向匹配算法对待分词文本进行分词，获得第一次分词结果及对应的词性标注；以及语法分析模块，用于根据所述词性标注进行语法分析，将所述待分词文本切分成多个句子；以及第二次分词模块，用于采用动态规划的后向最大匹配算法和HMM算法将步骤语法分析模块中切分后的所述多个句子分别进行精细分词，获得多个第二次分词结果；以及输出结果模块，用于将所述多个第二次分词结果进行合并，获得最终的分词结果。 10.一种计算机可读存储介质，所述介质中存储有计算机程序，在所述计算机程序被处理器执行时，实施如权利要求1 ‑8中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115186656 A 3

专利 一种社交文本分词方法及装置

专利一种社交文本分词方法及装置