iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211197928.4 (22)申请日 2022.09.29 (71)申请人 咪咕文化科技有限公司 地址 100000 北京市西城区德胜门外大街 11号5幢40 0室(德胜园区) (72)发明人 裘思科 张坚毅 陈杰 谢周兵 (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 徐秀秀 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 术语在上下文中的语义一致性识别方法、 存 储介质及设备 (57)摘要 本发明提供一种术语在上下文中的语义一 致性识别方法、 存储介质及设备, 所述术语在上 下文中的语义一致性识别方法包括: 获取预设规 模的文本 数据; 将所述文本数据分割处理为数据 集, 按照正例和负例的区分标记所述数据集; 对 所述数据集进行句子遮掩处理, 将目标术语与所 述数据集进行拼接; 拼接所述目标术语后的各个 句子构成训练样本集; 按照正例和负例的区分识 别所述训练样本集中的句子; 根据所述训练样本 集中各个句子的识别结果, 确定术语一致性识别 模型。 本发明采用 深度学习技术, 实现了风险位 置的术语上 下文语义 一致性识别。 权利要求书2页 说明书7页 附图4页 CN 115526183 A 2022.12.27 CN 115526183 A 1.一种术语在上下文中的语义一致性识别方法, 其特征在于, 所述术语在上下文中的 语义一致性识别方法包括: 获取预设规模的文本数据; 将所述文本数据分割处 理为数据集, 按照正例和负例的区分标记所述数据集; 对所述数据集进行句子遮掩处理, 将目标术语与所述数据集进行拼接; 拼接所述目标 术语后的各个句子构成训练样本集; 按照正例和负例的区分识别所述训练样本集中的句子; 根据所述训练样本集中各个句子的识别结果, 确定术语一 致性识别模型。 2.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述获 取预设规模的文本数据的步骤, 包括: 由人物、 事 件的评论数据中或利用网络 爬虫抓取 方式获取 预设规模的文本数据。 3.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述将 所述文本数据分割处 理为数据集, 按照正例和负例的区分标记所述数据集的步骤, 包括: 对所述文本数据进行 数据清洗, 移除不利于训练的特殊符号; 按照启发式规则, 将清洗后的文本数据分割为句子集 合; 对所述句子集合中每一个句子, 按照给定的术语集进行扫描, 查看所述句子是否存在 完全匹配的术语字符串, 或者存在术语近似串; 响应于存在完全匹配的术语字符串, 则将所述句子作为正例记录到训练数据库中; 响 应于存在术语近似串, 则将所述句子作为负例记录 到所述训练数据库中。 4.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述对 所述数据集进行句子遮 掩处理, 将目标术语与所述数据集进行拼接的步骤, 包括: 在所述数据集的上下文句子中, 对所述目标术语对应的字符串或所述目标术语相关的 变形字符串, 利用遮 掩符号进行遮 掩; 将所述目标术语对应的字符串和遮掩后的上下文句子对应的字符串, 通过分隔符进行 拼接。 5.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 所述按 照正例和负例的区分识别所述训练样本集中的句子的步骤, 包括: 响应于所述训练样本集中的当前句子为 正例, 将所述当前句子标记为0; 响应于所述训练样本集中的当前句子为负例, 将所述当前句子标记为1。 6.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 根据所述训练样本集中各个句子的识别结果, 确定术语一致性识别模型 的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 对所述训练样本集进行随机排序; 根据各次随机排序后的训练样本集, 生成不同的模型参数; 选择最佳 结果对应的模型参数, 生成所述 术语一致性识别模型。 7.根据权利要求1所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 根据所述训练样本集中各个句子的识别结果, 确定术语一致性识别模型 的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 输入待检测句子;权 利 要 求 书 1/2 页 2 CN 115526183 A 2通过模式匹配识别所述待检测句子中的术语及变形术语; 在所述待检测句子中, 对所述 术语和所述变形术语进行遮 掩处理; 将遮掩处理后的待检测句子与所述 术语和所述变形术语进行拼接; 将拼接后的待检测句子 输入所述 术语一致性识别模型中进行一 致性识别。 8.根据权利要求7所述的术语在上下文中的语义一致性识别方法, 其特征在于, 在所述 将拼接后的待检测句子输入所述术语一致性识别模型中进 行一致性识别的步骤之后, 所述 术语在上 下文中的语义 一致性识别方法还 包括: 判断一致性识别结果与预期结果是否一 致; 响应于所述一致性识别结果与所述预期结果不一致, 对不一致情况进行记录, 报告所 述术语或所述变形术语使用存在错 误。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被处 理器执行时实现权利要求1至8中任一项所述的术语在上 下文中的语义 一致性识别方法。 10.一种电子设备, 其特 征在于, 包括: 处 理器及存 储器; 所述存储器用于存储计算机程序, 所述处理器用于执行所述存储器存储的计算机程 序, 以使所述电子设备执行如权利要求1至8中任一项 所述的术语在上下文中的语义一致性 识别方法。权 利 要 求 书 2/2 页 3 CN 115526183 A 3
专利 术语在上下文中的语义一致性识别方法、存储介质及设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:42
上传分享
举报
下载
原文档
(641.1 KB)
分享
友情链接
软件开发管理制度.pdf
GB-T 33560-2017 信息安全技术 密码应用标识规范.pdf
GB-T 3716-2023 托盘术语.pdf
专利 一种知识图谱更新方法、装置、设备及存储介质.PDF
GB-T 37596-2019 航空航天用镁合金锻件.pdf
赛迪 数据安全治理白皮书 2021.pdf
T-CI 006—2023 具有大气净化功能的沥青道路光催化涂层.pdf
专利 资产暴露面信息获取方法、装置、设备以及存储介质.PDF
GB-T 37962-2019 信息安全技术 工业控制系统产品信息安全通用评估准则.pdf
T-CFA 03110315—2020 铸件热处理单元数字化技术要求.pdf
GB-T 9465-2018 高空作业车.pdf
GB-T 20021-2017 帆布芯耐热输送带.pdf
GB-T 28543-2021 电力电容器噪声测量方法.pdf
GB 15083-2019 汽车座椅、座椅固定装置及头枕强度要求和试验方法.pdf
中兴 通讯数据中心液冷技术白皮书 2022 .pdf
GB-T 43836-2024 企业科技创新系统能力水平评价规范.pdf
GB-T 10647-2008 饲料工业术语.pdf
GB-T 31034-2014 晶体硅太阳电池组件用绝缘背板.pdf
专利 一种用于高功率密度机柜的泵驱双环路热管组合散热系统.PDF
GB-T 41131-2021 科技馆展览教育服务规范.pdf
1
/
14
评价文档
赞助3元 点击下载(641.1 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。