iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210890284.0 (22)申请日 2022.07.27 (71)申请人 联想 (北京) 有限公司 地址 100085 北京市海淀区上地西路6号2 幢2层201- H2-6 (72)发明人 赵国光 李飞 (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 韩园园 张颖玲 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本处理方法及装置 (57)摘要 本申请实施例提供一种文本处理方法及装 置, 所述方法包括: 获得待处理文本, 所述待处理 文本包括至少两个语句; 对所述待处理文本中的 每一语句进行语义编码处理, 得到每一所述语句 对应的语句编码向量; 根据每一所述语句在所述 待处理文本中的顺序, 对所述至少两个语句编码 向量进行排序处理, 得到待处理序列; 根据每一 所述语句编码向量在所述待处理序列中的位置 信息, 对所述待处理序列中的语句编码向量进行 语义分析处理, 得到每一所述语句编码向量对应 的语句类型, 以确定每一所述语句编码向量对应 语句的完整性。 权利要求书3页 说明书16页 附图4页 CN 115169323 A 2022.10.11 CN 115169323 A 1.一种文本处 理方法, 所述方法包括: 获得待处 理文本, 所述待处 理文本包括至少两个 语句; 对所述待处理文本 中的每一语句进行语义编码处理, 得到每一所述语句对应的语句编 码向量; 根据每一所述语句在所述待处理文本 中的顺序, 对所述至少两个语句编码向量进行排 序处理, 得到待处 理序列; 根据每一所述语句编码向量在所述待处理序列中的位置信 息, 对所述待处理序列中的 语句编码向量进行语义分析处理, 得到每一所述语句编码向量对应的语句类型, 以确定每 一所述语句编码向量对应 语句的完整性。 2.根据权利要求1所述的方法, 所述方法还 包括: 根据所述语句类型对所述待处理序列进行标注, 得到所述待处理文本对应的语句类型 标注序列。 3.根据权利要求1所述的方法, 所述根据每一所述语句编码向量在所述待处理序列中 的位置信息, 对所述待处理序列中的语句编码向量进行语义分析处理, 得到每一所述语句 编码向量对应的语句类型, 包括: 根据每一所述语句编码向量在所述待处理序列中的位置信 息, 确定每一所述语句编码 向量的相邻语句编码向量; 对每一所述语句编码向量和所述相邻语句编码向量进行特征提取, 得到每一所述语句 编码向量对应的上 下文语境信息; 根据每一所述语句编码向量对应的上下文语境信 息, 对每一所述语句编码向量进行分 类处理, 得到每一所述语句编码向量对应的所述语句类型。 4.根据权利要求1所述的方法, 所述根据每一所述语句编码向量在所述待处理序列中 的位置信息, 对所述待处理序列中的语句编码向量进行语义分析处理, 得到每一所述语句 编码向量对应的语句类型, 包括: 根据每一所述语句编码向量在所述待处理序列中的位置信 息, 对所述待处理序列进行 双向特征提取, 得到正向特 征向量和反向特 征向量; 对所述正向特征向量和所述反向特 征向量进行 特征拼接, 得到序列特 征向量; 对所述序列特 征向量进行分类处 理, 得到分类矩阵; 对所述分类矩阵进行归一 化处理, 得到所述待处 理文本中每一语句对应的语句类型。 5.根据权利要求1所述的方法, 所述方法还 包括: 获得整句集合和断句集合; 所述整句集合中包括至少一个整句, 所述断句集合中包括 至少一个断句; 分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的 第一距离、 和每一所述语句对应的语句编 码向量与所述断句集合中的每一断句之 间的第二 距离; 基于所述第一距离, 确定每一所述语句与所述整句集 合之间的第一相似度; 基于所述第二距离, 确定每一所述语句与所述断句集 合之间的第二相似度; 根据每一所述语句对应的所述第 一相似度和所述第 二相似度, 确定每一所述语句的语 句类型;权 利 要 求 书 1/3 页 2 CN 115169323 A 2根据每一所述语句和每一所述语句对应的语句类型, 创建语句类型 标注样本 。 6.根据权利要求5所述的方法, 所述根据每一所述语句对应的所述第一相似度和所述 第二相似度, 确定每一所述语句的语句类型, 至少包括以下一种: 当语句的所述第 一相似度大于第 一相似度阈值 时, 确定出所述语句的语句类型为整句 类型; 当语句的所述第 二相似度大于第 二相似度阈值 时, 确定出所述语句的语句类型为断句 类型; 当语句的所述第 一相似度大于所述第 二相似度时, 确定出所述语句的语句类型为整句 类型; 当语句的所述第 二相似度大于所述第 一相似度时, 确定出所述语句的语句类型为断句 类型。 7.根据权利要求5所述的方法, 所述方法还 包括: 根据所述待处理文本中的每一语句对应的语句类型, 对所述语句类型标注样本进行更 新, 得到更新后的语句类型 标注样本; 将所述更新后的语句类型 标注样本, 确定为标注模型的样本数据集。 8.根据权利要求5所述的方法, 所述方法还 包括: 获得历史对话; 确定所述历史对话中每一语句对应的目标对象; 当任一语句对应的目标对象为第一类型对象时, 将所述语句确定为整句; 根据所述历史对话中的全部整句, 创建所述整句集 合; 当任一语句对应的目标对象为第二类型对象时, 对所述语句进行句法分析, 得到分析 结果; 当所述分析 结果表明所述语句的语句类型为断句类型时, 将所述语句确定为断句; 根据所述历史对话中的全部断句, 创建所述断句集 合。 9.根据权利要求2所述的方法, 所述方法通过标注模型实现, 所述标注模型至少包括语 义编码模块、 排序模块、 语义分析模块和标注模块; 所述标注模型通过以下步骤训练得到: 将样本数据集输入至所述标注模型中, 所述样本数据集包括至少两个样本语句; 通过所述语义编码模块, 对所述样本数据集中的每一样本语句进行语义编码处理, 得 到每一所述样本语句对应的样本语句编码向量; 通过所述排序模块, 根据每一所述样本语句在所述样本数据集中的顺序, 对所述至少 两个样本语句编码向量进行排序处 理, 得到样本待处 理序列; 通过所述语义分析模块, 根据每一所述样本语句编码向量在所述样本待处理序列中的 位置信息, 对所述样本待处理序列中的样本语句编码向量进行语义分析处理, 得到每一所 述样本语句编码向量对应的样本语句类型; 通过所述标注模块, 根据所述样本语句类型对所述样本待处理序列进行标注, 得到所 述样本待处 理文本对应的样本语句类型 标注序列; 将所述样本语句类型 标注序列输入至预设损失模型中, 得到损失结果; 根据所述损失结果, 对所述语义编码模块、 所述排序模块、 所述语义分析模块和所述标 注模块中的参数进行修 正, 以得到训练后的标注模型。权 利 要 求 书 2/3 页 3 CN 115169323 A 3
专利 文本处理方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:27
上传分享
举报
下载
原文档
(1018.0 KB)
分享
友情链接
T-CCTAS 24—2021 互联网货运平台安全运营规范.pdf
GB-T 42920-2023 塑料 纤维增强塑料复合材料耐火特性和防火性能的评定.pdf
T-CESA 1101—2020 信息技术服务 治理 安全审计.pdf
GB-T 20988-2007 信息安全技术 信息系统灾难恢复规范.pdf
GB-T 14315-2008 电力电缆导体用压接型铜、铝接线端子和连接管.pdf
GB-T 956.3-2017 锥形弹性垫圈.pdf
GB-T 15609-2008 彩色显示器色度测量方法.pdf
GM-T 0061-2018 动态口令密码应用检测规范.pdf
GB/T 25387.2-2021 风力发电机组 全功率变流器 第2部分:试验方法.pdf
GB-T 29718-2013 滚动轴承 风力发电机组主轴轴承.pdf
GM-T 0052-2016 密码设备管理 VPN设备监察管理规范.pdf
GB-T 35381.1-2017 农林拖拉机和机械 串行控制和通信数据网络 第1部分:数据通信通用标准.pdf
GB-T 39254-2020 增材制造 金属制件机械性能评价通则.pdf
T-CAMDI 009.10—2020 无菌医疗器械初包装洁净度 第10部分:污染限量.pdf
SL-T782-2019 水利水电工程安全监测系统运行管理规范.pdf
GB-T 39622-2020 挖泥船重力抓斗.pdf
思度安全-DSMM-005 数据安全需求分析管理规范V1.0.pdf
GM-T 0048-2016 智能密码钥匙密码检测规范.pdf
GB-T 33767.5-2018 信息技术 生物特征样本质量 第5部分:人脸图像数据.pdf
GBT 40861-2021 汽车信息安全通用技术要求.pdf
1
/
24
评价文档
赞助3元 点击下载(1018.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。