iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211318585.2 (22)申请日 2022.10.26 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融街31号 (72)发明人 陈知生 陈迎昕 (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 董文倩 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) (54)发明名称 文本数据管理方法、 装置、 电子设备及非易 失性存储介质 (57)摘要 本申请公开了一种文本数据管理方法、 装 置、 电子设备及非易失性存储介质。 其中, 该方法 包括: 依据第一处理规则, 清除待处理文本数据 中的干扰数据, 得到第一目标文本数据; 依据第 二处理规则, 清除第一目标文本数据中的干扰数 据, 得到第二目标文本数据; 确定第二目标文本 数据和第三目标文本数据的相似度信息; 在第二 目标文本数据和第三目标文本数据的相似度信 息符合第一预设相似度要求的情况下, 确定第二 目标文本数据和第三目标文本数据对应同一目 标词条。 本申请解决了由于相关技术中在确定文 本数据相似度时没有考虑文本数据所属的技术 领域和文本格式造成的无法准确确定不同文本 数据之间的相似度的技 术问题。 权利要求书2页 说明书10页 附图3页 CN 115495583 A 2022.12.20 CN 115495583 A 1.一种文本数据管理方法, 其特 征在于, 包括: 依据第一处理规则, 清除待处理文本数据中的干扰数据, 得到第一目标文本数据, 其 中, 所述第一处 理规则为目标对象设定的处 理规则; 依据第二处理规则, 清除所述第一目标文本数据中的所述干扰数据, 得到第二目标文 本数据, 其中, 所述第二处 理规则为 服务器推送的处 理规则; 确定所述第二目标文本数据和第三目标文本数据的相似度信息, 其中, 所述第三目标 文本数据为存 储在目标文本数据库中的文本数据; 在所述第二目标文本数据和所述第三目标文本数据的相似度信息符合第一预设相似 度要求的情况下, 确定所述第二目标文本数据和所述第三目标文本数据对应同一目标词 条。 2.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述确定所述第 二目标文本 数据和第三目标文本数据的相似度信息包括: 将所述第二目标文本数据划分为多个第一子文本数据; 从所述第一子文本数据中确定被所述第三目标文本数据包 含的第二子文本数据; 依据所述第 二子文本数据的数量与 所述第一子文本数据的数量的比值, 确定所述相似 度信息。 3.根据权利要求2所述的文本数据管理方法, 其特征在于, 所述第 一预设相似度要求包 括所述比值大于第一预设比值, 并且所述第二子文本数据的数量大于第一预设数量。 4.根据权利要求1所述的文本数据管理方法, 其特征在于, 在不存在与 所述第二目标文 本数据的相似度信息符合所述预设要求的所述第三目标文本数据的情况下, 所述文本数据 管理方法还 包括: 创建与所述第二目标文本数据对应的目标词条, 其中, 所述目标词条用于检索所述第 二目标文本数据。 5.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述依据第一处理规则, 清 除待处理文本数据中的干扰数据的步骤之前, 所述文本数据管理方法还 包括: 获取目标对象输入的处 理规则文本数据; 对所述处 理规则文本数据进行语义识别, 生成所述第一处 理规则; 以及, 获取目标对象输入的正则表达式, 并依据所述 正则表达式生成所述第一处 理规则。 6.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述干扰数据包括以下至少 之一: 序号, 标点符号, 注释符号。 7.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述文本数据 管理方法还包 括: 获取查询文本数据, 其中, 所述 查询文本数据用于表征查询意图信息; 依据所述第 一处理规则和所述第 二处理规则, 清 理所述查询文本数据中的所述干扰数 据, 从而得到第四目标文本数据; 从所述目标数据库中确定与所述第四目标文本数据之间的相似度信息符合第二预设 相似度要求的第五目标文本数据; 推送所述第五目标文本数据, 以及所述第五目标 数据对应的目标词条。 8.根据权利要求1所述的文本数据管理方法, 其特征在于, 所述文本数据 管理方法还包权 利 要 求 书 1/2 页 2 CN 115495583 A 2括: 向目标服 务器发送所述第一处 理规则; 获取所述目标服务器依据所述第一处理规则确定的所述第二处理规则, 其中, 所述第 二处理规则为使用频率大于第一预设频率阈值的所述第一处 理规则。 9.一种文本数据管理方法, 其特 征在于, 包括: 获取终端设备发送 的第一处理规则, 其中, 所述第一处理规则为与待处理文本数据所 属的技术领域对应的处 理规则, 用于清除所述待处 理文本数据中的干扰数据; 确定所述终端设备发送的所述第一处 理规则的使用频率; 在所述使用频率大于预设使用频率阈值的情况下, 确定所述第 一处理规则为第 二处理 规则; 向所述终端设备推送所述第二处 理规则。 10.一种文本数据管理装置, 其特 征在于, 包括: 第一处理模块, 用于依据第 一处理规则, 清除待处理文本数据中的干扰数据, 得到第一 目标文本数据, 其中, 所述第一处 理规则为目标对象设定的处 理规则; 第二处理模块, 用于依据第二处理规则, 清除所述第一目标文本数据中的所述干扰数 据, 得到第二目标文本数据, 其中, 所述第二处 理规则为 服务器推送的处 理规则; 计算模块, 用于确定所述第 二目标文本数据和第 三目标文本数据的相似度信息, 其中, 所述第三目标文本数据为存 储在目标文本数据库中的文本数据; 归类模块, 用于在所述第 二目标文本数据和所述第 三目标文本数据的相似度信 息符合 第一预设相似度要求的情况下, 确定所述第二目标文本数据和所述第三目标文本数据对应 同一目标词条。 11.一种非易失性存储介质, 其特征在于, 所述非易失性存储介质中存储有程序, 其中, 在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至9中任意一项所 述文本数据管理方法。 12.一种电子设备, 其特征在于, 包括: 存储器和处理器, 所述处理器用于运行存储在所 述存储器中的程序, 其中, 所述程序运行时执行权利要求1至9中任意一项所述的文本数据 管理方法。权 利 要 求 书 2/2 页 3 CN 115495583 A 3
专利 文本数据管理方法、装置、电子设备及非易失性存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 02:15:28
上传分享
举报
下载
原文档
(670.6 KB)
分享
友情链接
GB-T 3730.1-2022 汽车、挂车及汽车列车的术语和定义 第1部分:类型.pdf
T-CISA 046—2020 铬—锰—镍—氮系奥氏体不锈钢冷轧钢板和钢带.pdf
GB-T 26225-2010 信息技术 移动存储 闪存盘通用规范.pdf
GB 18483-2001 饮食业油烟排放标准.pdf
T-CSIA 014—2023 开放式景区消防安全评估导则.pdf
GB-T 41774-2022 法庭科学 爆炸装置鉴定规程.pdf
DB37-T 4649.3—2023 智能制造 第3部分:数字化车间建设指南 山东省.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
DB22-T 2054.1-2014 牛养殖保险查勘定损技术规范 第1部分:奶牛 吉林省.pdf
NB-T 10173-2019 煤矿井下定向钻进技术规程.pdf
奇安信 中国首席安全官研究报告.pdf
GB-T 37393-2019 数字化车间 通用技术要求.pdf
GB-T 30029-2023 自动导引车 设计通则.pdf
GB-T 41560-2022 纺织品 遮热性能的测定.pdf
GB-T 36718-2018 节能评估技术导则 氧化铝项目.pdf
GB-T 24262-2009 石油物探仪器环境试验及可靠性要求.pdf
GB-T 32333-2015 滚动轴承 振动 加速度 测量方法及技术条件.pdf
GB-T 25706-2010 矿山机械产品型号编制方法.pdf
SL 47-2020 水工建筑物岩石地基开挖施工技术规范.pdf
GB-T 29047-2021 高密度聚乙烯外护管硬质聚氨酯泡沫塑料预制直埋保温管及管件.pdf
1
/
3
16
评价文档
赞助3元 点击下载(670.6 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。