iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211197928.4 (22)申请日 2022.09.29 (71)申请人 咪咕文化科技有限公司 地址 100000 北京市西城区德胜门外大街 11号5幢40 0室(德胜园区) (72)发明人 裘思科 张坚毅 陈杰 谢周兵  (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 徐秀秀 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 术语在上下文中的语义一致性识别方法、 存 储介质及设备 (57)摘要 本发明提供一种术语在上下文中的语义一 致性识别方法、 存储介质及设备, 所述术语在上 下文中的语义一致性识别方法包括: 获取预设规 模的文本 数据; 将所述文本数据分割处理为数据 集, 按照正例和负例的区分标记所述数据集; 对 所述数据集进行句子遮掩处理, 将目标术语与所 述数据集进行拼接; 拼接所述目标术语后的各个 句子构成训练样本集; 按照正例和负例的区分识 别所述训练样本集中的句子; 根据所述训练样本 集中各个句子的识别结果, 确定术语一致性识别 模型。 本发明采用 深度学习技术, 实现了风险位 置的术语上 下文语义 一致性识别。 权利要求书2页 说明书7页 附图4页 CN 115526183 A 2022.12.27 CN 115526183 A 1.一种术语在上下文中的语义一致性识别方法, 其特征在于, 所述术语在上下文中的 语义一致性识别方法包括: 获取预设规模的文本数据; 将所述文本数据分割处 理为数据集, 按照正例和负例的区分标记所述数据集; 对所述数据集进行句子遮掩处理, 将目标术语与所述数据集进行拼接; 拼接所述目标 术语后的各个句子构成训练样本集; 按照正例和负例的区分识别所述训练样本集中的句子; 根据所述训练样本集中各个句子的识别结果, 确定术语一 致性识别模型。 2.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述获 取预设规模的文本数据的步骤, 包括: 由人物、 事 件的评论数据中或利用网络 爬虫抓取 方式获取 预设规模的文本数据。 3.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述将 所述文本数据分割处 理为数据集, 按照正例和负例的区分标记所述数据集的步骤, 包括: 对所述文本数据进行 数据清洗, 移除不利于训练的特殊符号; 按照启发式规则, 将清洗后的文本数据分割为句子集 合; 对所述句子集合中每一个句子, 按照给定的术语集进行扫描, 查看所述句子是否存在 完全匹配的术语字符串, 或者存在术语近似串; 响应于存在完全匹配的术语字符串, 则将所述句子作为正例记录到训练数据库中; 响 应于存在术语近似串, 则将所述句子作为负例记录 到所述训练数据库中。 4.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述对 所述数据集进行句子遮 掩处理, 将目标术语与所述数据集进行拼接的步骤, 包括: 在所述数据集的上下文句子中, 对所述目标术语对应的字符串或所述目标术语相关的 变形字符串, 利用遮 掩符号进行遮 掩; 将所述目标术语对应的字符串和遮掩后的上下文句子对应的字符串, 通过分隔符进行 拼接。 5.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述按 照正例和负例的区分识别所述训练样本集中的句子的步骤, 包括: 响应于所述训练样本集中的当前句子为 正例, 将所述当前句子标记为0; 响应于所述训练样本集中的当前句子为负例, 将所述当前句子标记为1。 6.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 根据所述训练样本集中各个句子的识别结果, 确定术语一致性识别模型 的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 对所述训练样本集进行随机排序; 根据各次随机排序后的训练样本集, 生成不同的模型参数; 选择最佳 结果对应的模型参数, 生成所述 术语一致性识别模型。 7.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 根据所述训练样本集中各个句子的识别结果, 确定术语一致性识别模型 的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 输入待检测句子;权 利 要 求 书 1/2 页 2 CN 115526183 A 2通过模式匹配识别所述待检测句子中的术语及变形术语; 在所述待检测句子中, 对所述 术语和所述变形术语进行遮 掩处理; 将遮掩处理后的待检测句子与所述 术语和所述变形术语进行拼接; 将拼接后的待检测句子 输入所述 术语一致性识别模型中进行一 致性识别。 8.根据权利要求7所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 将拼接后的待检测句子输入所述术语一致性识别模型中进 行一致性识别的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 判断一致性识别结果与预期结果是否一 致; 响应于所述一致性识别结果与所述预期结果不一致, 对不一致情况进行记录, 报告所 述术语或所述变形术语使用存在错 误。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被处 理器执行时实现权利要求1至8中任一项所述的术语在上 下文中的语义 一致性识别方法。 10.一种电子设备, 其特 征在于, 包括: 处 理器及存 储器; 所述存储器用于存储计算机程序, 所述处理器用于执行所述存储器存储的计算机程 序, 以使所述电子设备执行如权利要求1至8中任一项 所述的术语在上下文中的语义一致性 识别方法。权 利 要 求 书 2/2 页 3 CN 115526183 A 3

PDF文档 专利 术语在上下文中的语义一致性识别方法、存储介质及设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 术语在上下文中的语义一致性识别方法、存储介质及设备 第 1 页 专利 术语在上下文中的语义一致性识别方法、存储介质及设备 第 2 页 专利 术语在上下文中的语义一致性识别方法、存储介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。