(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210890825.X
(22)申请日 2022.07.27
(71)申请人 厦门市美亚柏科信息安全研究所有
限公司
地址 361000 福建省厦门市思明区软件园
观日路14 号
(72)发明人 彭闯 吴俊毅 赵建强 陈诚
陈思萌 张辉极
(74)专利代理 机构 厦门福贝知识产权代理事务
所(普通合伙) 35235
专利代理师 陈远洋
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)G06F 40/30(2020.01)
(54)发明名称
一种社交文本分词方法及装置
(57)摘要
本申请提出了根据本发明的一个方面提出
了一种社交文本分词方法, 该方法包括以下步
骤: 构建词典, 词典包括语料数据的词频和语料
数据的词性; 基于构建的词典, 利用逆向匹配算
法对待分词文本进行分词, 获得第一次分词结果
及对应的词性标注; 根据词性标注进行语法分
析, 将待分词文本切分成多个句子; 采用动态规
划的后向最大匹配算法和HMM算法将步骤S3中切
分后的多个句子分别进行精细分词, 获得多个第
二次分词结果; 以及将多个第二次分词结果进行
合并, 获得最终的分词结果。 通过上述技术方案
能够有效解决社交文本中句法不一, 口语化严重
等问题, 从而为社交文本提供更准确的分词结
果。
权利要求书2页 说明书10页 附图5页
CN 115186656 A
2022.10.14
CN 115186656 A
1.一种社交文本分词方法, 其特 征在于, 包括以下步骤:
S1、 构建词典, 所述词典包括语料 数据的词频和语料 数据的词性;
S2、 基于步骤S1构 建的词典, 利用逆向匹配算法对待分词文本进行分词, 获得第一次分
词结果及对应的词性标注;
S3、 根据所述词性标注进行语法分析, 将所述待分词文本切分成多个句子;
S4、 采用动态规划的后向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子
分别进行精细分词, 获得多个第二次分词结果; 以及
S5、 将所述多个第二次分词结果进行合并, 获得最终的分词结果。
2.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S1中, 构建词典,
所述词典包括语料 数据的词频和语料 数据的词性, 包括以下子步骤:
S11、 搜集语料 数据;
S12、 统计所述语料 数据的词频, 并根据词性 规则对所述语料 数据进行词性标注;
S13、 将所述语料数据、 所述语料数据的词频以及所述所述语料数据的词性存储至所述
词典中;
S14、 利用字典树的数据结构将所述词典构造成后缀字典树。
3.根据权利要求2所述的一种社交文本分词方法, 其特征在于, 在步骤S14中, 利用字典
树的数据结构将所述词典构造成后缀字典树, 其中所述数据结构利用python实现, 采用
dict的数据结构存 储。
4.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S1中, 所述语料
数据的词性包括形容词、 名词、 副词和动词。
5.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S3中, 根据所述
词性标注进行语法分析, 将所述待分词文本切分成多个句 子, 通过预设以下语法规则进行
切分:
a、 以动词加名词为组合进行切分, 切分时采用贪婪匹配;
b、 以副词加动词为组合进行切分, 切分时采用非贪婪匹配;
c、 以形容词加名词为组合进行切分, 切分时采用非贪婪匹配;
d、 规则之外的句子单独成句。
6.根据权利要求1所述的一种社交文本分词方法, 其特征在于, 在步骤S4中, 采用动态
规划的后 向最大匹配算法和HMM算法将步骤S3中切分后的所述多个句子分别进行精细分
词, 获得多个第二次分词结果, 包括以下子步骤:
S41、 利用动态规划的后向最大匹配算法求 解出最优解, 进行分词;
S42、 采用H MM算法将单字合成句子进行H MM分词, 进行补充词发现。
7.根据权利要求6所述的一种社交文本分词方法, 其特征在于, 在步骤S41中, 利用动态
规划的后向最大匹配算法求 解出最优解, 进行分词, 包括以下子步骤:
S411、 将待分词的所述多个句子切分为有向无环图;
S412、 计算所述有向无环图中各个节点的概 率;
S413、 动态的选择最大的概 率值作为切分节点 来切分句子 。
8.根据权利要求6所述的一种社交文本分词方法, 其特征在于, 在步骤S42中, 采用HMM
算法将单字合 成句子进行HMM分词, 采用4 ‑tag进行标注, 标注集合为{S,B,M,E}, 其中B代表权 利 要 求 书 1/2 页
2
CN 115186656 A
2Begin, 即为词开头; M代表Middle, 即为词中间; E代表End, 即为词结尾; S代表Single, 即为
单字词。
9.一种社交文本分词装置, 其特 征在于, 所述装置包括:
构建词典模块, 用于构建词典, 所述词典包括语料 数据的词频和语料 数据的词性; 以及
第一次分词模块, 用于基于构建词典模块构建的词典, 利用逆向匹配算法对待分词文
本进行分词, 获得第一次分词结果及对应的词性标注; 以及
语法分析模块, 用于根据所述词性标注进行语法分析, 将所述待分词文本切分成多个
句子; 以及
第二次分词模块, 用于采用动态规划的后向最大匹配算法和HMM算法将步骤语法分析
模块中切分后的所述多个句子分别进行精细分词, 获得多个第二次分词结果; 以及
输出结果模块, 用于将所述多个第二次分词结果进行合并, 获得最终的分词结果。
10.一种计算机可读存储介质, 所述介质中存储有计算机程序, 在所述计算机程序被处
理器执行时, 实施如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115186656 A
3
专利 一种社交文本分词方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:26上传分享