iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211206438.6 (22)申请日 2022.09.29 (71)申请人 南京燧坤智能科技有限公司 地址 210046 江苏省南京市栖霞区纬地路9 号F7楼3层321室 (72)发明人 于翠楠  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 董文倩 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) (54)发明名称 文献映射确定方法以及装置 (57)摘要 本发明公开了一种文献映射确定方法以及 装置。 其中, 该方法包括: 获取检索映射 关系以及 目标词汇; 在判断结果为目标词汇 为检索映射关 系中所包括的第一非标准词中的第一目标非标 准词, 并且目标词汇对应的第一目标非标准词对 应于多个第一候选标准词的情况下, 获取目标词 汇对应的目标翻译词, 第一目标 非标准词对应的 非标准翻译词, 以及多个第一候选标准词分别对 应的标准翻译词; 基于目标翻译词, 非标准翻译 词, 以及所述标准翻译词, 确定多个第一候选标 准词中与目标词汇对应的第一目标标准词; 建立 第一目标标准词与 目标词汇之间的目标映射关 系。 本发明解决了由于文 献与目标词汇之间映射 设置不准确, 造成的文献检索准确性低, 检索局 限性高的技 术问题。 权利要求书3页 说明书14页 附图2页 CN 115455153 A 2022.12.09 CN 115455153 A 1.一种文献映射确定方法, 其特 征在于, 包括: 获取检索映射关系以及目标词汇, 其中, 所述检索映射关系为第一标准词与第一非标 准词之间的映射关系, 所述第一标准词与所述第一非标准词为同一语义的不同表达方式, 所述目标词汇为对文献进行自然语言识别处 理得到的; 判断所述目标词汇是否为所述检索映射关系中所包括的第一非标准词中的第一目标 非标准词; 在判断结果为所述目标词汇为所述检索映射关系中所包括的第一非标准词中的第一 目标非标准词的情况下, 判断所述目标词汇对应的所述第一目标非标准词是否对应于多个 第一候选标准词; 在判断结果为所述目标词汇对应的所述第一目标非标准词对应于多个第一候选标准 词的情况下, 获取所述 目标词汇对应的目标翻译词, 所述第一 目标非标准词对应的非标准 翻译词, 以及所述多个第一 候选标准词分别对应的标准翻译词; 基于所述目标翻译词, 所述非标准翻译词, 以及所述多个第一候选标准词分别对应的 所述标准翻译词, 确定所述多个第一候选标准词中与所述目标词汇对应的第一目标标准 词; 建立所述第一目标 标准词与所述目标词汇之间的目标映射关系。 2.根据权利要求1所述的方法, 其特征在于, 在获取所述目标词汇对应的目标翻译词, 所述第一目标非标准词对应的非标准翻译词, 以及所述多个第一候选标准词分别对应的标 准翻译词之前, 所述方法还 包括: 判断所述目标词汇是否为简称词, 其中, 所述简称词为缩写形式并且对应于多种全称 形式; 若所述目标词汇为所述简称词, 则对所述简称词在所述文献中预设范围内的上下文语 句进行翻译处 理, 得到所述上 下文语句的第一翻译结果; 对所述多个第一 候选标准词分别进行翻译处 理, 得到所述标准翻译词; 对所述第一目标非标准词进行翻译处 理, 得到所述非标准翻译词; 基于所述标准翻译词, 所述非标准翻译词, 以及所述第 一翻译结果, 确定所述多个第一 候选标准词中与所述目标词汇对应的第一目标 标准词。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述标准翻译词, 所述非标准翻 译词, 以及所述第一翻译结果, 确定所述多个第一候选标准词中与所述 目标词汇对应的第 一目标标准词, 包括: 判断所述第 一翻译结果中是否存在所述非标准翻译词的第 一同义词, 以及判断所述第 一翻译结果中是否存在所述标准翻译词的第二同义词; 若所述第一翻译结果中存在所述第 一同义词, 则将所述第 一同义词对应的第 一非标准 词作为第二目标非标准词; 基于所述检索映射关系, 确定所述第二目标非标准词对应的第二目标 标准词; 将所述第二目标 标准词作为所述第一目标 标准词; 若所述第一翻译结果中存在所述第 二同义词, 则将所述第 二同义词对应的第 一标准词 作为第三目标 标准词; 将所述第三目标 标准词作为所述第一目标 标准词。权 利 要 求 书 1/3 页 2 CN 115455153 A 24.根据权利要求1所述的方法, 其特征在于, 在所述目标词汇不为所述第 一非标准词中 的所述第一 目标非标准词, 所述 目标词汇为多个, 所述文献中多个目标词汇之间存在第一 映射关系的情况 下, 所述方法还 包括: 判断所述多个目标词汇中是否存在与所述第一标准词相同的第一词汇; 若存在与所述标准词相同的所述第一词汇, 则基于所述第一映射关系, 确定所述多个 目标词汇中与所述第一词汇对应的第二词汇; 根据所述第一词汇与所述第二词汇之间对应的第一映射关系, 更新所述检索映射关 系, 得到更新后的所述检索映射关系。 5.根据权利要求1所述的方法, 其特 征在于, 所述获取检索映射关系, 包括: 获取包括多个第一实体词的同义词集合, 以及所述多个第 一实体词之间存在的第 二映 射关系, 其中, 所述第二映射关系为基于多个数据库中的所述多个第一实体词分别对应的 映射数据得到的; 确定所述多个数据库分别对应的第 一权重值, 以及所述第 二映射关系 对应的第 一映射 数量, 其中, 所述第一映射数量 为所述第二映射关系对应的所述多个数据库的数量; 基于所述第 一权重值和所述第 一映射数量, 得到所述多个第 一实体词分别对应的第 二 权重值; 确定所述第二权 重值中的最大值; 将所述最大值对应的第一实体词, 作为所述同义词集 合对应的所述第一标准词; 将所述同义词集合中除所述第 一标准词之外的第 一实体词, 作为所述同义词集合对应 的所述第一非标准词; 基于所述第 二映射关系, 确定所述第 一标准词和所述第 一非标准词之间的所述检索映 射关系。 6.根据权利要求5所述的方法, 其特征在于, 在所述第一非标准词为多个的情况下, 所 述基于所述第二映射关系, 确定所述第一标准词和所述第一 非标准词之间的所述检索映射 关系, 包括: 将所述同义词集合中所述第 二权重值大于预设权重阈值的第 一非标准词, 作为所述同 义词集合对应的第二非标准词; 基于所述第 二映射关系, 确定所述第 一标准词和所述第 二非标准词之间的所述检索映 射关系。 7.根据权利要求6所述的方法, 其特征在于, 所述获取包括多个第 一实体词的同义词集 合, 包括: 获取多个数据库中包括的多个初始实体词, 所述多个初始实体词分别对应的初始映射 关系, 其中, 所述初始映射关系为基于多个数据库中的所述多个初始实体词分别对应的映 射数据得到的; 确定所述初始映射关系对应的第二映射数量; 将所述第二映射数量大于预设的第 一数量阈值的初始实体词的集合, 作为所述同义词 集合。 8.根据权利要求1所述的方法, 其特 征在于, 获取 所述目标词汇, 包括: 基于所述文献和预设的词汇类型, 采用自然语言识别进行处理, 得到初始词汇, 其中,权 利 要 求 书 2/3 页 3 CN 115455153 A 3

PDF文档 专利 文献映射确定方法以及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文献映射确定方法以及装置 第 1 页 专利 文献映射确定方法以及装置 第 2 页 专利 文献映射确定方法以及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。