iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210890825.X (22)申请日 2022.07.27 (71)申请人 厦门市美亚柏科信息安全研究所有 限公司 地址 361000 福建省厦门市思明区软件园 观日路14 号 (72)发明人 彭闯 吴俊毅 赵建强 陈诚  陈思萌 张辉极  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 陈远洋 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01)G06F 40/30(2020.01) (54)发明名称 一种社交文本分词方法及装置 (57)摘要 本申请提出了根据本发明的一个方面提出 了一种社交文本分词方法, 该方法包括以下步 骤: 构建词典, 词典包括语料数据的词频和语料 数据的词性; 基于构建的词典, 利用逆向匹配算 法对待分词文本进行分词, 获得第一次分词结果 及对应的词性标注; 根据词性标注进行语法分 析, 将待分词文本切分成多个句子; 采用动态规 划的后向最大匹配算法和HMM算法将步骤S3中切 分后的多个句子分别进行精细分词, 获得多个第 二次分词结果; 以及将多个第二次分词结果进行 合并, 获得最终的分词结果。 通过上述技术方案 能够有效解决社交文本中句法不一, 口语化严重 等问题, 从而为社交文本提供更准确的分词结 果。 权利要求书2页 说明书10页 附图5页 CN 115186656 A 2022.10.14 CN 115186656 A 1.一种社交文本分词方法, 其特 征在于, 包括以下步骤: S1、 构建词典, 所述词典包括语料 数据的词频和语料 数据的词性; S2、 基于步骤S1构 建的词典, 利用逆向匹配算法对待分词文本进行分词, 获得第一次分 词结果及对应的词性标注; S3、 根据所述词性标注进行语法分析, 将所述待分词文本切分成多个句子; S4、 采用动态规划的后向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子 分别进行精细分词, 获得多个第二次分词结果; 以及 S5、 将所述多个第二次分词结果进行合并, 获得最终的分词结果。 2.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S1中, 构建词典, 所述词典包括语料 数据的词频和语料 数据的词性, 包括以下子步骤: S11、 搜集语料 数据; S12、 统计所述语料 数据的词频, 并根据词性 规则对所述语料 数据进行词性标注; S13、 将所述语料数据、 所述语料数据的词频以及所述所述语料数据的词性存储至所述 词典中; S14、 利用字典树的数据结构将所述词典构造成后缀字典树。 3.根据权利要求2所述的一种社交文本分词方法, 其特征在于, 在步骤S14中, 利用字典 树的数据结构将所述词典构造成后缀字典树, 其中所述数据结构利用python实现, 采用 dict的数据结构存 储。 4.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S1中, 所述语料 数据的词性包括形容词、 名词、 副词和动词。 5.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S3中, 根据所述 词性标注进行语法分析, 将所述待分词文本切分成多个句 子, 通过预设以下语法规则进行 切分: a、 以动词加名词为组合进行切分, 切分时采用贪婪匹配; b、 以副词加动词为组合进行切分, 切分时采用非贪婪匹配; c、 以形容词加名词为组合进行切分, 切分时采用非贪婪匹配; d、 规则之外的句子单独成句。 6.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S4中, 采用动态 规划的后 向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子分别进行精细分 词, 获得多个第二次分词结果, 包括以下子步骤: S41、 利用动态规划的后向最大匹配算法求 解出最优解, 进行分词; S42、 采用H MM算法将单字合成句子进行H MM分词, 进行补充词发现。 7.根据权利要求6所述的一种社交文本分词方法, 其特征在于, 在步骤S41中, 利用动态 规划的后向最大匹配算法求 解出最优解, 进行分词, 包括以下子步骤: S411、 将待分词的所述多个句子切分为有向无环图; S412、 计算所述有向无环图中各个节点的概 率; S413、 动态的选择最大的概 率值作为切分节点 来切分句子 。 8.根据权利要求6所述的一种社交文本分词方法, 其特征在于, 在步骤S42中, 采用HMM 算法将单字合 成句子进行HMM分词, 采用4 ‑tag进行标注, 标注集合为{S,B,M,E}, 其中B代表权 利 要 求 书 1/2 页 2 CN 115186656 A 2Begin, 即为词开头; M代表Middle, 即为词中间; E代表End, 即为词结尾; S代表Single, 即为 单字词。 9.一种社交文本分词装置, 其特 征在于, 所述装置包括: 构建词典模块, 用于构建词典, 所述词典包括语料 数据的词频和语料 数据的词性; 以及 第一次分词模块, 用于基于构建词典模块构建的词典, 利用逆向匹配算法对待分词文 本进行分词, 获得第一次分词结果及对应的词性标注; 以及 语法分析模块, 用于根据所述词性标注进行语法分析, 将所述待分词文本切分成多个 句子; 以及 第二次分词模块, 用于采用动态规划的后向最大匹配算法和HMM算法将步骤语法分析 模块中切分后的所述多个句子分别进行精细分词, 获得多个第二次分词结果; 以及 输出结果模块, 用于将所述多个第二次分词结果进行合并, 获得最终的分词结果。 10.一种计算机可读存储介质, 所述介质中存储有计算机程序, 在所述计算机程序被处 理器执行时, 实施如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115186656 A 3

PDF文档 专利 一种社交文本分词方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种社交文本分词方法及装置 第 1 页 专利 一种社交文本分词方法及装置 第 2 页 专利 一种社交文本分词方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。