iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210870926.0 (22)申请日 2022.07.22 (71)申请人 智慧芽信息科技 (苏州) 有限公司 地址 215000 江苏省苏州市苏州工业园区 金鸡湖大道88号人工智能产业园G3- 701、 G3-801、 G3-901、 G3-1001单元 (72)发明人 杨海涛 王超超 王为磊 (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 宗广静 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法及装置、 存 储介质及电子设备 (57)摘要 本公开披露一种文本处理方法及装置、 存储 介质及电子设备, 涉及数据处理技术领域。 包括: 确定目标组织机构名称的字向量集合; 基于所述 字向量集合, 确定所述目标组织机构名称对应的 至少一个实体。 本公开通过字向量集合, 确定目 标组织机构名称对应的至少一个实体, 能够充分 体现语义特征和实体之间的转移关系, 并且目标 组织机构名称通常较短, 采用字向量集合能够提 高处理效果, 从而提高获得的目标组织机构名称 对应的实体的准确性, 进而能够减少后续用户搜 索组织机构名称花费的时间。 权利要求书2页 说明书12页 附图6页 CN 115221881 A 2022.10.21 CN 115221881 A 1.一种文本处 理方法, 其特 征在于, 包括: 确定目标组织机构名称的字向量 集合; 基于所述字向量 集合, 确定所述目标组织机构名称对应的至少一个实体。 2.根据权利要求1所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定 所述目标组织机构名称对应的至少一个实体, 包括: 基于所述字向量集合, 确定所述目标组织机构名称的字向量依赖关系特征集合, 其中, 所述字向量依赖关系特征集合包含的字 向量依赖关系特征与所述字 向量集合包含的字 向 量一一对应; 基于所述字向量依赖关系特征集合, 确定所述目标组织机构名称对应的至少一个实 体。 3.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量集合, 确定 所述目标组织机构名称的字向量依赖关系特 征集合, 包括: 利用长短期记忆人工神经网络, 对所述字向量集合进行特征提取, 得到所述字向量依 赖关系特征集合, 其中, 所述长短期记忆人工神经网络包括单层双向的长短期记忆人工神 经网络。 4.根据权利要求2所述的文本处理方法, 其特征在于, 所述基于所述字向量依赖关系特 征集合, 确定所述目标组织机构名称对应的至少一个实体, 包括: 利用条件随机场模型, 基于所述字向量依赖关系特征集合学习实体之间的邻接关系, 生成标签转移 矩阵; 基于所述标签转移 矩阵, 预测所述目标组织机构名称包 含的字各自所属的实体; 基于所述目标组织机构名称包含的字各自所属的实体, 确定所述目标组织机构名称对 应的至少一个实体。 5.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 若所述至少一个实体包括具有单个字的实体, 对所述目标组织机构名称进行分词, 得 到所述目标组织机构名称对应的词语实体; 基于所述目标组织机构名称对应的词语实体修 正所述单个字的实体。 6.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 若所述至少一个实体包括对应多种标签的实体, 基于歧义词典修正所述对应多种标签 的实体, 其中, 所述歧义词典包括核心名称标准、 地址名称标准和行业名称标准。 7.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述基于所述字向 量集合, 确定所述目标组织机构名称对应的至少一个实体之后, 还 包括: 基于预设标准化映射词典, 对所述目标组织机构名称对应的至少一个实体进行标准化 映射, 得到所述目标组织机构名称对应的文本解析 数据。 8.根据权利要求7所述的文本处理方法, 其特征在于, 所述预设标准化映射词典包括地 址标准化映射词典、 行业标准 化映射词典和法律形式标准 化映射词典中的至少一种。 9.根据权利要求1至4任一项所述的文本处理方法, 其特征在于, 在所述确定目标组织 机构名称的字向量 集合之前, 还 包括:权 利 要 求 书 1/2 页 2 CN 115221881 A 2若所述目标组织机构名称包含简称, 对所述目标组织机构名称包含的简称进行补全处 理; 若所述目标组织机构名称包含外文, 对所述目标组织机构名称包含的外文进行删除处 理, 以便得到只包 含中文的目标组织机构名称。 10.根据权利要求7所述的文本处理方法, 其特征在于, 在所述基于预设标准化映射词 典, 对所述 目标组织机构名称对应的至少一个实体进行标准化映射, 得到所述目标组织机 构名称对应的文本解析 数据之后, 还 包括: 利用所述文本解析数据, 在预设数据库中搜索与 所述目标组织机构名称关联的数据信 息。 11.一种文本处 理装置, 其特 征在于, 包括: 第一确定模块, 用于确定目标组织机构名称的字向量 集合; 第二确定模块, 用于基于所述字向量集合, 确定所述目标组织机构名称对应的至少一 个实体。 12.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器, 其中, 所述处 理器用于执 行上述权利要求1至10任一项所述的文本处 理方法。 13.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序用于执 行上述权利要求1至10任一项所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 115221881 A 3
专利 文本处理方法及装置、存储介质及电子设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:31
上传分享
举报
下载
原文档
(959.7 KB)
分享
友情链接
DB42-T 2226.4-2024 自然资源政务一张图应用规范 第4部分:运行服务 湖北省.pdf
深圳经济特区科技创新条例.pdf
GB-T 20278-2022 信息安全技术 网络脆弱性扫描产品安全技术要求和测试评价方法.pdf
GB-T 35218-2017 拖拉机可靠性 台架试验方法.pdf
GB-T 11263-2017 热轧H型钢和剖分T型钢.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
DB53-T 1175-2023 网络视频“明厨亮灶”系统运维规范 云南省.pdf
GB-T 38664.1-2020 信息技术 大数据 政务数据开放共享 第1部分:总则.pdf
T-TJKCSJ 001—2020 天津市全过程工程咨询服务导则.pdf
IPC-A-610 电子组件的可接受性.pdf
T-CIECCPA 009—2020 工业企业节能诊断改造效果评估指南.pdf
智慧水务整体解决方案.pdf
T-CFA 020101161—2020 铸造高速钢轧辊.pdf
T-CHIA 14.5—2018 医疗健康物联网 感知设备通信数据命名表 第5部分:血压计.pdf
DPO 非个人数据自由流动框架条例 中文版.pdf
T-ZZB 1929—2020 汽车前照明用调光电机.pdf
安全管理制度体系文件.pdf
JRT 0271-2023 金融数字化能力成熟度指引.pdf
GB-T 18884.3-2015 家用厨房设备 第3部份:试验方法与检验规则.pdf
TTAF 151—2023 移动应用分发平台APP个人信息保护自动化检测实施指南.pdf
1
/
21
评价文档
赞助3元 点击下载(959.7 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。