iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211072526.1 (22)申请日 2022.09.02 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 刘康 李鉴学 范潇 杨明川  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 王辉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本处理方法、 装置、 存 储介质及电子设备 (57)摘要 本申请属于人工智能技术领域, 涉及 文本处 理方法、 装置、 存储介质及电子设备。 该方法包 括: 获取待处理文本, 对所述待处理文本进行预 处理和分词处理, 以获取与所述待处理文本对应 的分词向量序列; 将所述分词向量序列输入至融 合语言模型, 通过所述融合语言模 型对所述分词 向量序列进行语义特征提取, 以获取与所述待处 理文本对应的目标词向量; 其中, 所述融合语言 模型是基于Nezha模型、 Bert模型和Roformer模 型构建的。 本申请能够通过融合语 言模型充分挖 掘待处理文本中隐藏的信息, 提高语义特征提取 和词向量的精准度。 权利要求书3页 说明书13页 附图5页 CN 115374782 A 2022.11.22 CN 115374782 A 1.一种文本处 理方法, 其特 征在于, 包括: 获取待处理文本, 对所述待处理文本进行预处理和分词处理, 以获取与所述待处理文 本对应的分词向量序列; 将所述分词向量序列输入至融合语言模型, 通过所述融合语言模型对所述分词向量序 列进行语义特 征提取, 以获取与所述待处 理文本对应的目标词向量; 其中, 所述融合语言模型 是基于Nez ha模型、 Ber t模型和Roformer模型构建的。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述待处理文本进行预处理和分词 处理, 以获取分词向量序列, 包括: 将预处理后的所述待处理文本输入至分词模型, 通过所述分词模型对所述预处理后的 待处理文本进 行分词和向量化处理, 以获取与所述预 处理后的待处理文本中各分词对应的 分词向量; 根据各所述分词的顺序和各 所述分词对应的分词向量构建所述分词向量序列。 3.根据权利要求1所述的方法, 其特征在于, 所述融合语言模型包括输入层、 第一语义 解析单元、 第二语义 解析单元、 模型融合层、 词向量 转换层和输出层; 所述将所述分词向量序列输入至 融合语言模型, 通过所述融合语言模型对所述分词向 量序列进行语义特 征提取, 以获取与所述待处 理文本对应的目标词向量, 包括: 通过所述输入层将所述分词向量序列分别输入至所述第一语义解析单元和所述第二 语义解析单元, 通过所述第一语义解析单元和所述第二语义解析单元分别对所述分词向量 序列进行语义特 征提取, 以获取第一词向量和第二词向量; 通过所述模型融合层对所述第 一词向量和所述第 二词向量进行融合, 以获取融合词向 量; 通过所述词向量转换层基于注意力 机制对所述融合词向量进行处理, 以获取所述目标 词向量。 4.根据权利要求3所述的方法, 其特征在于, 所述第一语义解析单元包括依次连接的 Roformer模型层和第一Ber t模型层; 所述通过所述第 一语义解析单元对所述分词向量序列进行语义特征提取, 以获取第 一 词向量, 包括: 通过所述Roformer模型层根据所述分词向量序列中各分词向量所对应的位置构建旋 转位置编码; 将所述分词向量序列和所述旋转位置编码输入至所述第 一Bert模型层, 通过所述第一 Bert模型层根据所述旋转位置编 码对所述分词向量序列进 行语义特征提取, 以获取所述第 一词向量。 5.根据权利要求3 中所述的方法, 其特征在于, 所述第 二语义解析单元包括依次连接的 第二Bert模型层和Nez ha模型层; 所述通过所述第 二语义解析单元对所述分词向量序列进行语义特征提取, 以获取第 二 词向量, 包括: 将所述分词向量序列输入至所述第二B ert模型层, 通过所述第二Bert模型层对所述分 词向量序列进行语义特 征提取, 以获取初始词向量; 将所述初始词向量输入至所述Nezha模型层, 通过所述Nezha模型层对所述初始词向量权 利 要 求 书 1/3 页 2 CN 115374782 A 2进行处理, 以获取相对位置编码, 并基于所述相对位置编码对所述初始词向量进行语义特 征提取, 以获取 所述第二词向量。 6.根据权利要求3所述的方法, 其特征在于, 所述通过所述模型融合层对所述第 一词向 量和所述第二词向量进行融合, 以获取融合词向量, 包括: 将所述第一词向量和所述第 二词向量中对应同一分词的词向量相加或拼接, 以获取所 述融合词向量。 7.根据权利要求3所述的方法, 其特征在于, 所述融合词向量包括与 各所述分词对应的 嵌入词向量, 所述词向量 转换层包括注意力层和转换层; 所述通过所述词向量转换层基于注意力 机制对所述融合词向量进行处理, 以获取所述 目标词向量, 包括: 通过所述注意力层基于注意力机制确定与各 所述嵌入词向量对应的注意力权 重; 通过所述转换层根据各所述嵌入词向量和与各所述嵌入词向量对应的所述注意力权 重进行加权平均, 以获取 所述目标词向量。 8.根据权利要求1所述的方法, 其特征在于, 在将所述分词向量序列输入至 融合语言模 型之前, 所述方法还 包括: 获取文本样本, 对所述文本样本进行所述预处理和所述分词处理, 以获取与所述文本 样本对应的分词向量样本序列; 根据所述分词向量样本序列对待训练融合语言模型进行对比训练和对抗训练, 以获取 所述融合语言模型。 9.根据权利要求8所述的方法, 其特 征在于, 所述获取文本样本, 包括: 获取标注文本、 与所述标注文本对应的分类信息和未标注文本, 根据所述标注文本和 所述分类信息对待训练文本分类模型进行训练, 以获取文本分类模型, 所述待训练文本分 类模型是基于所述待训练融合语言模型构建的; 将未标注文本输入至所述文本分类模型, 通过所述文本分类模型对所述未标注文本进 行特征提取, 以获取与所述未 标注文本对应的分类信息; 根据所述分类信 息将所述标注文本和所述未标注文本划分为多个文本集, 并根据 所述 多个文本集确定所述文本样本 。 10.根据权利要求9所述的方法, 其特 征在于, 所述分类信息为 业务类型; 所述根据所述多个文本集确定所述文本样本, 包括: 获取与目标业务类型对应的文本集中的文本作为正文本样本, 获取与 所述目标业务类 型不对应的文本集中的文本作为负文本样本; 根据所述 正文本样本和所述负文本样本构建所述文本样本 。 11.根据权利要求8所述的方法, 其特征在于, 所述根据所述分词向量样本序列对待训 练融合语言模型进行对比训练和对抗训练, 以获取 所述融合语言模型, 包括: 获取与目标文本样本对应的第 一分词向量序列, 根据所述第 一分词向量序列生成正样 本对; 获取与非 目标文本样本对应的第 二分词向量序列, 根据 所述第二分词向量序列生成负 样本; 根据所述目标文本样本、 所述正样本对和所述负样本对所述待训练融合语言模型进行权 利 要 求 书 2/3 页 3 CN 115374782 A 3

PDF文档 专利 文本处理方法、装置、存储介质及电子设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、存储介质及电子设备 第 1 页 专利 文本处理方法、装置、存储介质及电子设备 第 2 页 专利 文本处理方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。