iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211318585.2 (22)申请日 2022.10.26 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融街31号 (72)发明人 陈知生 陈迎昕  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 董文倩 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) (54)发明名称 文本数据管理方法、 装置、 电子设备及非易 失性存储介质 (57)摘要 本申请公开了一种文本数据管理方法、 装 置、 电子设备及非易失性存储介质。 其中, 该方法 包括: 依据第一处理规则, 清除待处理文本数据 中的干扰数据, 得到第一目标文本数据; 依据第 二处理规则, 清除第一目标文本数据中的干扰数 据, 得到第二目标文本数据; 确定第二目标文本 数据和第三目标文本数据的相似度信息; 在第二 目标文本数据和第三目标文本数据的相似度信 息符合第一预设相似度要求的情况下, 确定第二 目标文本数据和第三目标文本数据对应同一目 标词条。 本申请解决了由于相关技术中在确定文 本数据相似度时没有考虑文本数据所属的技术 领域和文本格式造成的无法准确确定不同文本 数据之间的相似度的技 术问题。 权利要求书2页 说明书10页 附图3页 CN 115495583 A 2022.12.20 CN 115495583 A 1.一种文本数据管理方法, 其特 征在于, 包括: 依据第一处理规则, 清除待处理文本数据中的干扰数据, 得到第一目标文本数据, 其 中, 所述第一处 理规则为目标对象设定的处 理规则; 依据第二处理规则, 清除所述第一目标文本数据中的所述干扰数据, 得到第二目标文 本数据, 其中, 所述第二处 理规则为 服务器推送的处 理规则; 确定所述第二目标文本数据和第三目标文本数据的相似度信息, 其中, 所述第三目标 文本数据为存 储在目标文本数据库中的文本数据; 在所述第二目标文本数据和所述第三目标文本数据的相似度信息符合第一预设相似 度要求的情况下, 确定所述第二目标文本数据和所述第三目标文本数据对应同一目标词 条。 2.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述确定所述第 二目标文本 数据和第三目标文本数据的相似度信息包括: 将所述第二目标文本数据划分为多个第一子文本数据; 从所述第一子文本数据中确定被所述第三目标文本数据包 含的第二子文本数据; 依据所述第 二子文本数据的数量与 所述第一子文本数据的数量的比值, 确定所述相似 度信息。 3.根据权利要求2所述的文本数据管理方法, 其特征在于, 所述第 一预设相似度要求包 括所述比值大于第一预设比值, 并且所述第二子文本数据的数量大于第一预设数量。 4.根据权利要求1所述的文本数据管理方法, 其特征在于, 在不存在与 所述第二目标文 本数据的相似度信息符合所述预设要求的所述第三目标文本数据的情况下, 所述文本数据 管理方法还 包括: 创建与所述第二目标文本数据对应的目标词条, 其中, 所述目标词条用于检索所述第 二目标文本数据。 5.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述依据第一处理规则, 清 除待处理文本数据中的干扰数据的步骤之前, 所述文本数据管理方法还 包括: 获取目标对象输入的处 理规则文本数据; 对所述处 理规则文本数据进行语义识别, 生成所述第一处 理规则; 以及, 获取目标对象输入的正则表达式, 并依据所述 正则表达式生成所述第一处 理规则。 6.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述干扰数据包括以下至少 之一: 序号, 标点符号, 注释符号。 7.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述文本数据 管理方法还包 括: 获取查询文本数据, 其中, 所述 查询文本数据用于表征查询意图信息; 依据所述第 一处理规则和所述第 二处理规则, 清 理所述查询文本数据中的所述干扰数 据, 从而得到第四目标文本数据; 从所述目标数据库中确定与所述第四目标文本数据之间的相似度信息符合第二预设 相似度要求的第五目标文本数据; 推送所述第五目标文本数据, 以及所述第五目标 数据对应的目标词条。 8.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述文本数据 管理方法还包权 利 要 求 书 1/2 页 2 CN 115495583 A 2括: 向目标服 务器发送所述第一处 理规则; 获取所述目标服务器依据所述第一处理规则确定的所述第二处理规则, 其中, 所述第 二处理规则为使用频率大于第一预设频率阈值的所述第一处 理规则。 9.一种文本数据管理方法, 其特 征在于, 包括: 获取终端设备发送 的第一处理规则, 其中, 所述第一处理规则为与待处理文本数据所 属的技术领域对应的处 理规则, 用于清除所述待处 理文本数据中的干扰数据; 确定所述终端设备发送的所述第一处 理规则的使用频率; 在所述使用频率大于预设使用频率阈值的情况下, 确定所述第 一处理规则为第 二处理 规则; 向所述终端设备推送所述第二处 理规则。 10.一种文本数据管理装置, 其特 征在于, 包括: 第一处理模块, 用于依据第 一处理规则, 清除待处理文本数据中的干扰数据, 得到第一 目标文本数据, 其中, 所述第一处 理规则为目标对象设定的处 理规则; 第二处理模块, 用于依据第二处理规则, 清除所述第一目标文本数据中的所述干扰数 据, 得到第二目标文本数据, 其中, 所述第二处 理规则为 服务器推送的处 理规则; 计算模块, 用于确定所述第 二目标文本数据和第 三目标文本数据的相似度信息, 其中, 所述第三目标文本数据为存 储在目标文本数据库中的文本数据; 归类模块, 用于在所述第 二目标文本数据和所述第 三目标文本数据的相似度信 息符合 第一预设相似度要求的情况下, 确定所述第二目标文本数据和所述第三目标文本数据对应 同一目标词条。 11.一种非易失性存储介质, 其特征在于, 所述非易失性存储介质中存储有程序, 其中, 在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所 述文本数据管理方法。 12.一种电子设备, 其特征在于, 包括: 存储器和处理器, 所述处理器用于运行存储在所 述存储器中的程序, 其中, 所述程序运行时执行权利要求1至9中任意一项所述的文本数据 管理方法。权 利 要 求 书 2/2 页 3 CN 115495583 A 3

.PDF文档 专利 文本数据管理方法、装置、电子设备及非易失性存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本数据管理方法、装置、电子设备及非易失性存储介质 第 1 页 专利 文本数据管理方法、装置、电子设备及非易失性存储介质 第 2 页 专利 文本数据管理方法、装置、电子设备及非易失性存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。