iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211119994.X (22)申请日 2022.09.14 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518063 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 徐睿峰 孙洋 杨敏 梁斌  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 张庆玲 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/284(2020.01) (54)发明名称 一种文本处 理方法、 装置及存 储介质 (57)摘要 本发明公开了一种文本处理方法、 装置及存 储介质, 其中, 该方法包括: 获取目标文本的词级 别表示和语义级别表示; 分别对词级别表示和语 义级别表示进行论辩部件关系确认和论辩部件 分类, 分别得到词级别表示和语义级别表示对应 的论辩部件关系结果和论辩部件分类结果, 进而 分别得到第一论辩关系分类结果、 第二论辩关系 分类结果, 根据相应的论辩部件关系结果、 论辩 部件分类结果 以及第一论辩关系分类结果和第 二论辩关系分类结果, 得到目标文本的论辩结 构。 通过上述方案, 基于文本的词级别表示和语 义级别表示, 可分别进行对应的论辩部件分类、 论辩部件关系确认、 论辩关系分类, 进而从不同 维度进行多任务论辩挖掘, 能有效提高多任务论 辩挖掘准确性。 权利要求书3页 说明书26页 附图8页 CN 115510227 A 2022.12.23 CN 115510227 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取目标文本的词级别表示和语义级别表示; 对所述词级别表示进行论辩部件关系确 认和论辩部件分类, 得到第 一论辩部件关系结 果和第一 论辩部件分类结果; 根据所述第 一论辩部件关系结果和所述第 一论辩部件分类结果, 得到第 一论辩关系分 类结果; 对所述语义级别表示进行论辩部件关系确 认和论辩部件分类, 得到第 二论辩部件关系 结果和第二 论辩部件分类结果; 根据所述第 二论辩部件关系结果和所述第 二论辩部件分类结果, 得到第 二论辩关系分 类结果; 根据所述第 一论辩部件关系结果和所述第 二论辩部件关系结果、 所述第 一论辩部件分 类结果和所述第二论辩部件分类结果以及所述第一论辩关系分类结果和所述第二论辩关 系分类结果, 得到所述目标文本的论辩 结构。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述词级别表示进行论辩部件关系 确认和论辩部件分类, 得到第一 论辩部件关系结果和第一 论辩部件分类结果, 包括: 根据预设的所述词 级别表示对应的多个论辩部件, 为每一所述论辩部件构建词 级论辩 部件图; 利用第一图注意力网络更新每一所述词级论辩部件图; 利用第二图注意力网络确定所述词级论辩部件图之间的论辩部件关系, 得到第 一论辩 部件关系结果; 根据所述第 一论辩部件关系结果和更新后的所述词级论辩部件图进行论辩部件分类, 得到所述第一 论辩部件分类结果。 3.根据权利要求2所述的方法, 其特征在于, 所述利用第 二图注意力网络确定所述词级 论辩部件图之间的论辩部件关系, 得到第一 论辩部件关系结果, 包括: 利用相互注意力机制确定第j个所述词级论辩部件图中的每个词节点对于第i个所述 词级论辩部件图中的每个词节点的第一注意力系 数; 以及利用相互注意力机制确定第i个 所述词级论辩部件图中的每个词节点对于第 j个所述词级论辩部件图中的每个词节点的第 二注意力系数; 利用所述第一注意力系数对第j个所述词级论辩部件图中的词节点进行加权, 得到第 一加权词节点表示; 以及利用所述第二注意力系 数对第i个所述词级论辩部件图中的词节 点进行加权, 得到第二加权词节点表示; 利用对齐函数对第 i个所述词级论辩部件图中的每个词节点表示以及所述第 一加权词 节点表示进行细粒度对齐, 以确定第i个所述词级论辩部件图对应的第一节点对应表示; 利用对齐函数对第j个所述词级论辩部件图中的每个词节点表示以及所述第 二加权词 节点表示进行细粒度对齐, 以确定第j个所述词级论辩部件图对应的第二节点对应表示; 对所述第一节点对齐表示和所述第 二节点对齐表示分别进行池化操作, 得到对应的第 一关系图表示和第二关系图表示; 利用多层感知机制和双线性操作对所述第一关系图表示和所述第二关系图表示进行 预测, 得到相应的论辩部件关系预测概 率;权 利 要 求 书 1/3 页 2 CN 115510227 A 2根据所述 论辩部件关系预测概 率得到第一 论辩部件关系结果。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一论辩部件关系结果和更 新前的所述词级论辩部件图进行论辩部件分类, 得到所述第一 论辩部件分类结果, 包括: 利用中心特定注意力机制确定每一所述词级论辩部件图与其余的词级论辩部件图之 间的第一注意力系数, 得到每一词级论辩部件图对应的邻居感知表示; 以及, 利用软注意力 机制确定每一所述词级论辩部件图中的节点对应的第 二注意力系 数, 得到每一所述词级论辩部件图对应的词级论辩部件图表示; 利用多层感知机制和softmax函数对所述词级论辩部件图表示和所述邻居感知表示进 行预测, 得到相应的论辩部件类型 预测概率; 根据所述 论辩部件类型 预测概率得到第一 论辩部件分类结果。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一论辩部件关系结果和所 述第一论辩部件分类结果, 得到第一 论辩关系分类结果, 包括: 利用多层感知机制对所述第一论辩部件关系结果和所述第一论辩部件分类结果对应 的所述词级别表示的论辩部件进 行表示空间转换, 得到第一论辩部件表示和 第二论辩部件 表示; 利用双线性仿射函数和损 失函数对所述第一论辩部件表示和所述第二论辩部件表示 进行类型概 率计算, 得到对应的概 率; 根据所述 概率得到第一 论辩关系分类结果。 6.根据权利要求1所述的方法, 其特征在于, 所述对所述语义级别表示进行论辩部件关 系确认和论辩部件分类, 得到第二 论辩部件关系结果和第二 论辩部件分类结果, 包括: 根据预设的所述语义级别表示对应的多个论辩部件, 为每一所述论辩部件构建语义级 论辩部件图; 利用第一图注意力网络更新每一所述语义级论辩部件图; 利用第二图注意力网络确定所述语义级论辩部件图之间的论辩部件关系, 得到第 二论 辩部件关系结果; 根据所述第二论辩部件关系结果和更新前的所述语义级论辩部件图进行论辩部件分 类, 得到所述第二 论辩部件分类结果。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述第 二论辩部件关系结果和更 新前的所述语义级论辩部件图进行论辩部件分类, 得到所述第二 论辩部件分类结果, 包括: 利用中心特定注意力机制确定每一所述语义级论辩部件图与相邻的语义级论辩部件 图之间的第一注意力系数, 得到每一语义级论辩部件图对应的邻居感知表示; 以及, 利用软注意力 机制确定每一所述语义级论辩部件图中的节点对应的第 二注意力 系数, 得到每一所述语义级论辩部件图对应的语义级论辩部件图表示; 利用多层感知机制和softmax函数对所述语义级论辩部件图表示和所述邻居感知表示 进行预测, 得到相应的论辩部件类型 预测概率; 根据所述 论辩部件类型 预测概率得到第二 论辩部件分类结果。 8.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一论辩部件关系结果和所 述第二论辩部件关系结果、 所述第一论辩部件分类结果和所述第二论辩部件分类结果以及 所述第一论辩关系分类结果和所述第二论辩关系分类结果, 得到所述目标文本的论辩结权 利 要 求 书 2/3 页 3 CN 115510227 A 3

PDF文档 专利 一种文本处理方法、装置及存储介质

文档预览
中文文档 38 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法、装置及存储介质 第 1 页 专利 一种文本处理方法、装置及存储介质 第 2 页 专利 一种文本处理方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。