(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210897480.0
(22)申请日 2022.07.28
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 张镛 王健宗
(74)专利代理 机构 深圳众鼎专利商标代理事务
所(普通合伙) 44325
专利代理师 张美君
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
关键词抽取方法、 装置、 计算机设备及存储
介质
(57)摘要
本发明公开了一种关键词抽取方法、 装置、
计算机设备及存储介质, 该方法通过将正目标语
句和负目标语句输入至预训练模 型中, 获取语句
处理结果, 采用对比学习损失方法根据语句处理
结果对预训练模型进行调整, 得到文本处理模
型; 将正目标语句和负目标语句输入至文本处理
模型中, 获取第一正关键词和第一负关键词; 获
取预设第三方词典, 根据预设第三方词典对正目
标语句和负目标语句进行关键词匹配, 得到第二
正关键词和第二负关键词; 根据第一正关键词、
第二正关键词、 第一负关键词和第二负关键词,
确定关键词抽取结果。 本发明提高了关键词抽取
的准确率。
权利要求书3页 说明书14页 附图2页
CN 115204146 A
2022.10.18
CN 115204146 A
1.一种关键词抽取 方法, 其特 征在于, 包括:
获取目标语句集; 所述目标语句集中包括 正目标语句和负目标语句;
将所述正目标语句和所述负目标语句输入至预训练模型中, 获取语句处理结果, 并采
用对比学习损失方法根据所述语句处理结果对所述预训练模型进 行调整, 得到文本处理模
型;
将所述正目标语句和所述负目标语句输入至所述文本处理模型中, 获取第 一正关键词
和第一负关键词;
获取预设第 三方词典, 并根据 所述预设第 三方词典对所述正目标语句和所述负目标语
句进行关键词匹配, 得到第二 正关键词和第二负关键词;
根据所述第一正关键词、 第 二正关键词、 第一负关键词和第 二负关键词, 确定关键词抽
取结果。
2.如权利要求1所述的关键词抽取 方法, 其特 征在于, 所述获取训练样本集, 包括:
获取样本语句集; 所述样本语句集中包括多个正样本语句和多个负 样本语句;
获取预设目标语句数量, 并确定选取的正样本语句的第 一数量和选取的负样本语句的
第二数量; 所述第一数量和所述第二数量之和等于所述预设目标语句数量;
确定每两个所述正样本语句之间的语句相似度, 并将最大的第 一数量个语句相似度对
应的正样本语句确定为所述 正目标语句;
从所有所述负样本语句中选取第 二数量个负样本语句, 并将选取的负样本语句确定为
所述负目标语句。
3.如权利要求1所述的关键词抽取方法, 其特征在于, 所述将所述正目标语句和所述负
目标语句输入至预训练模型中, 获取语句处 理结果, 包括:
通过所述预训练模型对所述正目标语句和所述负目标语句进行向量转换, 得到所述正
目标语句对应的正特 征向量和所述负目标语句对应的负特 征向量;
对所述正特征向量和所述负特征向量进行整合, 得到多个目标向量组; 一个所述目标
向量组中包括两个目标 特征向量; 所述目标 特征向量可以为 正特征向量和/或负特 征向量;
对所有所述目标向量组进行相似度计算, 确定所述语句处 理结果。
4.如权利要求1所述的关键词抽取方法, 其特征在于, 所述正目标语句中包括至少一个
第一语句字; 所述负目标语句中包括至少一个第二语句字;
所述将所述正目标语句和所述负目标语句输入至所述文本处理模型中, 获取第 一正关
键词和第一负关键词, 包括:
将所述正目标语句和所述负目标语句输入至所述文本处理模型中, 并获取所述正目标
语句中每一所述第一语句字对应的注意力影响值, 以及所述负目标语句中每一所述第二语
句字对应的注意力影响值;
获取预设权重 阈值, 并将大于或等于所述预设权重阈值的注意力影响值对应的第 一语
句字确定为第一目标字, 将大于或等于所述预设权重阈值的注意力影响值对应的第二语句
字确定为第二目标字;
根据所述第 一目标字和与 所述第一目标字相邻的第 一语句字生成第 一语句词, 根据 所
述第二目标字和与所述第二目标字相邻的第二语句字生成第二语句词;
对所述第一语句词和所述第二语句词进行聚类, 得到正类语句词集以及负类语句词权 利 要 求 书 1/3 页
2
CN 115204146 A
2集; 所述正类语句词集中包括至少一个第一正关键词; 所述负类语句词集中包括至少一个
第一负关键词。
5.如权利要求4所述的关键词抽取方法, 其特征在于, 所述获取所述正目标语句中每一
所述第一语句字对应的注意力影响值, 包括:
获取所述文本处理模型针对所述正目标语句输出的注意力 权重矩阵; 所述注意力 权重
矩阵中包括多 行注意力值; 每一行所述注意力值是指该行注意力值对应的第一语句字对所
述正目标语句中其它第一语句字的注意力值;
根据每一行所述注意力值查询与同一所述第 一语句字对应的所有注意力值, 并根据与
同一所述第一语句字对应的所有注意力值确定与该第一语句字对应的注意力影响值。
6.如权利要求1所述的关键词抽取方法, 其特征在于, 所述预设第 三方词典中包括至少
一个样本关键词; 一个所述样本关键词对应一个关键词标签;
所述根据 所述预设第 三方词典对所述正目标语句进行关键词匹配, 得到第 二正关键词
和第二负关键词, 包括:
根据所述样本关键词对所述正目标语句进行关键词匹配, 并在所述正目标语句与 所有
所述样本关键词不匹配时, 对所述 正训练语句进行分词处 理, 得到至少一个正训练分词;
根据所述样本关键词对所有所述 正训练分词进行关键词匹配;
在所述正训练分词与任意一个所述样本关键词匹配成功时, 根据与 所述正训练分词匹
配的样本关键词对应的关键词标签, 将该正训练分词确定为所述第二正关键词或者所述第
二负关键词;
在所述正训练分词与 所有所述样本关键词均匹配失败时, 继续对 匹配失败的所述正训
练分词进行分词处理, 直至分词处理后的正训练分词仅包含一个字时, 获取所述正 目标语
句中的第二 正关键词和/或第二负关键词。
7.如权利要求1所述的关键词抽取方法, 其特征在于, 所述根据所述第一正关键词、 第
二正关键词、 第一负关键词和第二负关键词, 确定关键词抽取 结果, 包括:
根据所有所述第 二正关键词和所有所述第 二负关键词生成真实关键词集, 根据 所有所
述第一正关键词生成正关键词集, 以及根据所有所述第一负关键词生成负关键词集;
通过所述真实关键词集对所述正关键词集和所述负关键词集进行过滤, 得到所述正关
键词集对应的正过 滤词集和所述负关键词集对应的负过 滤词集;
对所述正过滤词集和所述负过 滤词集进行做差处 理, 得到所述关键词抽取 结果。
8.一种关键词抽取装置, 其特 征在于, 包括:
语句获取模块, 用于获取目标语句集; 所述目标语句集中包括正目标语句和负目标语
句;
模型调整模块, 用于将所述正目标语句和所述负目标语句输入至预训练模型中, 获取
语句处理结果, 并采用对比学习损失方法根据所述语句处理结果对所述预训练模型进 行调
整, 得到文本处 理模型;
关键词筛选模块, 用于将所述正目标语句和所述负目标语句输入至所述文本处理模型
中, 获取第一 正关键词和第一负关键词;
关键词匹配模块, 用于获取预设第三方词典, 并根据所述预设第三方词典对所述正目
标语句和所述负目标语句进行关键词匹配, 得到第二 正关键词和第二负关键词;权 利 要 求 书 2/3 页
3
CN 115204146 A
3
专利 关键词抽取方法、装置、计算机设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:26上传分享