iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211113668.8 (22)申请日 2022.09.14 (71)申请人 东南大学 地址 211189 江苏省南京市玄武区四牌楼 2 号 (72)发明人 杨鹏 李冰 易梦 孙元康  吉顺航  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶涓涓 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/35(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 层次胶囊与多视图信息融合的答案句子选 择方法与装置 (57)摘要 本发明公开了一种层次胶囊与多视图信息 融合的答案句子选择方法与装置。 首先, 对互联 网中的包含多个答案的问题文本进行采集和预 处理; 接着, 采用层次胶囊网络, 通过其渐进聚合 的特征, 对编码输出的表征进行信息聚合和单词 聚合, 保证了有效信息的准确传递, 且能使用同 一特征进行参数传递; 然后, 为了解决微调步骤 的不稳定性和使用预训练模型的最终输出仅能 预测单一标签的问题, 通过使用多视图信息融合 方法, 计算整个BERT编码中间层输出的权重来对 学习信息进行加权。 本发明能够改善以往答案句 子选择方法中忽略了模型内部多层中间输出对 答案句子选择的影响、 仅能预测单一结果等问 题, 进而提升答案句子 选择的准确性和高效性。 权利要求书4页 说明书9页 附图2页 CN 115455162 A 2022.12.09 CN 115455162 A 1.层次胶囊与多视图信息融合的答案句子 选择方法, 其特 征在于, 包括以下步骤: 步骤1: 问答对文本采集 通过互联网采集包含多个答案的问题文本与答案文本, 积累样本数据集; 数据集中的 每条样本包括网络文本中的问题和答案; 分割数据集形成训练集、 验证集和 测试集; 步骤2: 数据预处 理 对数据集中每一个样本进行预处理, 并构造三元组数据, 一个三元组数据包括问题文 本, 答案文本和答案文本所对应的标签; 步骤3: 模型训练 首先将问题和答案进行分句处理, 并利用BERT双向语言模型生成上下文嵌入向量, 其 中BERT模型使用大规模答案选择语料库ASNQ进行微调优化; 然后在编码层, 利用BERT编码 器来编码双向上下文语义信息, 以进一步获得词与词之间的信息依赖; 接着在层次胶囊网 络HCN中, 通过信息聚合胶囊网络InforCaps、 句段聚合胶囊网络SegCaps和类别聚合胶囊网 络CateCaps共享学习同一类特征参数; 信息聚合胶 囊层的动态路由机制聚合每个词的高维 稀疏语义, 以获得词之间的初步聚类特征; 在句段聚合胶囊层对聚类后的丰富词汇特征继 续进行二次聚类, 逐渐减少胶囊的数量, 得到一个较短的句 子长度, 但获得丰富的信息, 最 后将胶囊层输入到类别 胶囊层进行分类, 由此保证特定对象的聚类性能; 同时, 在多视图信 息融合层, 第一步计算整个BERT编码器中所有编码中间层输出的权重并进行归一化处理, 第二步利用该权重对各编 码层输出的信息进 行加权融合得到最终的信息表, 第三步采用激 活函数Relu对多视图信息融合层得到的加权信息表示进行处理并将其作为 “纠正信息 ”添 加到层次胶囊网络的最终语义表示中进行分类, 由此能够增强编码器中间层信息的学习; 最后, 输出层由层次胶囊网络层和多视图信息融合层的输出联合组成, 使用边际损失和交 叉熵损失的联合损失函数来训练所述模型; 步骤4: 模型测试与答案句子 选择 根据训练所 得到的最佳模型, 对 包含多个答案的问题进行答案句子 选择。 2.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法, 其特征在 于, 所述步骤1中, 获取数据集时首先从社 交网络平台中抓取大量的包含多个答案的问题文 本与对应的答案文本, 并根据人工规则选择问题的标准答案; 分割数据集时训练集、 验证集 和测试集比例为8 ∶ 1∶ 1。 3.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法, 其特征在 于, 所述步骤2中预处理的过程为: 对数据进行数据清洗, 保留只包含问题与答案以及答案 标签的数据, 利用n ltk库对问题和答案进行分句处 理, 并剔除只包 含两句以下的数据组。 4.根据权利要求1所述的层次胶囊与多视图信息融合的答案句子选择方法, 其特征在 于, 所述步骤3包括如下子步骤: 子步骤3‑1, 构建数据层 首先将BERT模型在大型答案选择语料库ASNQ上进行微调优化, 使微调出来的模型参数 更加适应于下游任务; 然后利用微调后的BERT模型来提取词汇表, 将三元组中问题和答案 的每个单词序列转化为词向量表示; 在BERT模 型中, 输入的句子对被组合成一个序列, 句子 之间由一个特殊的分隔符[SEP]分开; 句子的开头手动添加[CLS]标记, 这意 味着序列的聚 合表示; 在整个MPT ‑HCN模型实验中, 对数据进行预处理, 以使所有类型保持一致; 因此, 所权 利 要 求 书 1/4 页 2 CN 115455162 A 2有数据集的输入形式为[[CLS], A, [SEP], B, [SEP]], 其中A和B分别代表问题和相应候选集 中的一个候选答案; 子步骤3‑2, 构建文本嵌入层 给定一个问题q及其词元 同时给定一个与问题对应的候选答案ai及 其词元 其中s和m分别代表问题和答案的长度, 每个词均利用BERT模型 初始化完成, 上 下文嵌入表示E的公式如下: 其中 代表整个输入的表示, k=s+m+3 是输入问题、 答案和特殊词元的总长度, de是上下文嵌入表示的维度; 子步骤3‑3, 构建文本编码层 采用BERT编码器来编码双向语境信息; 该编码器由N个相同的层组成, 每层由两部分组 成: 多头注意力机制和位置全连接前馈神经网络, 并采用残差连接来避免因网络层过深而 造成的原始信息损失; 通过计算问题向量Q和键向量K之间的匹配关系, 得到加权矩阵 Attention(Q, K, V), 然后输出每 个值矩阵V对应的headi的加权值: 同时, 多头注意是由多个注意层串联而成的, 各注意层的不同参数矩阵所得到的矢量 信息叠加后得到编码器第n层上 下文深度表示: Mn=MultiHead(Q, K, V)=Co ncat(head1, ..., headh)WO 其中, WO为可学习参数, dk是一个常量参数; 并且多头注意机制的实现需 要通过一个由两个线性层和Relu()激活函数组成的全连接前向神经网络; 最后, 进行残差 连接和层归一 化处理, 以确保信息能够完全传输 到第n+1层; Hn=LayerNormMn+Fn 其中, 为可学习参数; 子步骤3‑4, 构建层次胶囊网络层 层次胶囊网络层包含三类胶囊: 信息聚合胶囊网络、 句段聚合胶囊网络和类别聚合胶 囊网络, 它 们通过共享学习同一类特 征参数, 以保证特定对象的聚类性能; 在信息聚合胶囊网络中, 首先对固定词的隐含信息进行聚类; 该网络使用HN作为输入, 并设置胶囊的数量为k, 每个胶囊的神经元为dmodel; 然后, 将编码器的输出状态 作为胶囊网络的输入层, 并得到预测向量: Wij为可学习化参数; 其次, 预测向量uj|i被输入动态路由协议, 并确定耦合系数cij, 该系数表明信息被传递 到下一层的概 率:权 利 要 求 书 2/4 页 3 CN 115455162 A 3

.PDF文档 专利 层次胶囊与多视图信息融合的答案句子选择方法与装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 层次胶囊与多视图信息融合的答案句子选择方法与装置 第 1 页 专利 层次胶囊与多视图信息融合的答案句子选择方法与装置 第 2 页 专利 层次胶囊与多视图信息融合的答案句子选择方法与装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。