iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211026146.4 (22)申请日 2022.08.25 (71)申请人 北京中科闻歌科技股份有限公司 地址 100080 北京市海淀区北四环西路9号 楼银谷大厦7层0715室 申请人 航空工业信息中心   中国科学院自动化研究所 (72)发明人 王婧宜 俞笑 孔庆超 王童跃  徐楠 胡佳茵 王宇琪 曹家  罗引  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 吴崇 (51)Int.Cl. G06F 16/34(2019.01)G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 多语言观点摘要生成方法、 装置、 设备、 系统 及存储介质 (57)摘要 本公开涉及一种多语 言观点摘要生成方法、 装置、 设备、 系统及存储介质。 该方法包括: 获取 待处理的多个目标文本; 对多个目标文本进行跨 语言文本表征处理, 得到各个目标文本对应的多 个通用表征向量; 基于多个通用表征向量, 提取 各个目标文本中的至少一个观点句; 基于观点 句, 生成多个目标文本对应的多个观点摘要。 根 据本公开实施例, 无需依赖机器翻译工具对不同 的语言对应的多媒体内容先进行翻译再生成观 点摘要, 对于海量的多语言目标文本, 降低了观 点摘要的生成成本, 同时, 生成的观点摘要不受 机器翻译准确性的影响, 因此, 提高了多语言观 点摘要生成的准确性, 有利于 推广应用。 权利要求书2页 说明书17页 附图5页 CN 115248857 A 2022.10.28 CN 115248857 A 1.一种多语言观点摘要生成方法, 其特 征在于, 包括: 获取待处 理的多个目标文本; 对所述多个目标文本进行跨语言文本表征处理, 得到各个所述目标文本对应的多个通 用表征向量; 基于所述多个通用表征向量, 提取 各个所述目标文本中的至少一个观点句; 基于所述观点句, 生成所述多个目标文本对应的观点摘要。 2.根据权利要求1所述的方法, 其特 征在于, 各个所述目标文本包括多个文本分句; 其中, 所述对所述多个目标文本进行跨语言文本表征处理, 得到各个所述目标文本对 应的多个通用表征向量, 包括: 在各个所述目标文本中为每个所述文本分句添加分隔符和占位符, 得到各个所述目标 文本对应的处 理后的文本分句; 将各个所述目标文本对应的处理后的文本分句输入预先训练好的跨语言观点提取模 型的跨语言文本表征子网络, 得到各个所述目标文本对应的多个通用表征向量。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述多个通用表征向量, 提取各 个所述目标文本中的至少一个观点句, 包括: 将所述多个通用表征向量输入所述跨语言观点提取模型的观点分类子网络, 得到每个 所述文本分句作为文本观点的概 率值; 将所述概率值大于或等于预先设置的概率值阈值的文本分句作为各个所述目标文本 中的观点句。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述观点句, 生成所述多个目标 文本对应的观点摘要, 包括: 将所述观点句输入预训练的跨语言文本表征模型, 得到所述观点句对应的语句表征向 量; 基于所述语句表征向量, 对所述观点句进行聚类, 得到多个观点句聚类簇; 针对每个所述观点句聚类簇, 基于所述观点句聚类簇中的观点句, 生成所述观点句聚 类簇对应的观点摘要。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述语句表征向量, 对所述观点 句进行聚类, 得到多个观点句聚类簇, 包括; 基于所述语句表征向量, 计算多个观点句之间的相似度; 基于所述多个观点句之间的相似度, 对所述观点句进行聚类, 得到多个观点句聚类簇 。 6.根据权利要求4所述的方法, 其特征在于, 所述针对每个所述观点句聚类簇, 基于所 述观点句聚类簇中的观点句, 生成所述观点句聚类簇对应的观点摘要, 包括: 针对每个所述观点句聚类簇, 基于所述语句表征向量, 计算每两个所述观点句之间的 相似度, 得到相似度矩阵; 以所述观点句作为节点, 在相邻的两个观点句节点之间构建所述节点之间的边, 根据 所述节点和所述边构建无向有权图, 所述无向有权图中每两个所述节点之 间的转移 概率为 所述相似度矩阵中观点句之间的相似度; 将所述无向有权图输入文本排序模型, 得到所述观点句聚类簇对应的观点摘要。 7.根据权利要求1至6任一项所述的方法, 其特征在于, 在所述基于所述观点句, 生成所权 利 要 求 书 1/2 页 2 CN 115248857 A 2述目标文本对应的多个观点摘要之后, 所述方法还 包括: 对每个所述观点摘要分别进行情感分析, 得到每 个所述观点摘要对应的情感标签。 8.根据权利要求7所述的方法, 其特征在于, 所述对每个所述观点摘要分别进行情 感分 析, 得到每 个所述观点摘要对应的情感标签, 包括: 将每个所述观点摘要分别输入预先训练好的情 感判别模型, 得到每个所述观点摘要对 应的情感标签。 9.根据权利要求1所述的方法, 其特征在于, 所述观点摘要对应于预设语言类型, 所述 目标文本对应目标语言类型; 其中, 在所述基于所述观点句, 生成所述目标文本对应的观点摘要之后, 所述方法还包 括: 将所述观点摘要由所述预设语言类型转换为目标语言类型, 得到转换后的观点摘要。 10.一种多语言观点摘要生成装置, 其特 征在于, 包括: 目标文本获取模块, 用于获取待处 理的多个目标文本; 通用表征向量生成模块, 用于对所述多个目标文本进行跨语言文本表征处理, 得到各 个所述目标文本对应的多个通用表征向量; 观点句提取模块, 用于基于所述多个通用表征向量, 提取各个所述目标文本中的至少 一个观点句; 观点摘要生成模块, 用于基于所述观点句, 生成所述多个目标文本对应的观点摘要。 11.一种多语言观点摘要生成设备, 其特 征在于, 包括: 处理器; 存储器, 用于存 储可执行指令; 其中, 所述处理器用于从所述存储器中读取所述可执行指令, 并执行所述可执行指令 以实现上述权利要求1 ‑9中任一项所述的多语言观点摘要生成方法。 12.一种多语言观点摘要生成系统, 其特征在于, 包括: 多语言观点摘要生成设备和多 语言观点摘要 展示设备; 其中, 所述多语言观点摘要生成设备, 用于获取待处 理的多个目标文本; 对所述多个目标文本进行跨语言文本表征处理, 得到各个所述目标文本对应的多个通 用表征向量; 基于所述多个通用表征向量, 提取 各个所述目标文本中的至少一个观点句; 基于所述观点句, 生成所述多个目标文本对应的多个观点摘要; 所述多语言观点摘要展示设备, 用于将所述多个目标文本对应的多个观点摘要进行展 示。 13.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述存储介质存 储有计算机程序, 当所述计算机程序被处理器执行时, 使得处理器实现上述权利要求 1‑9中 任一项所述的多语言观点摘要生成方法。权 利 要 求 书 2/2 页 3 CN 115248857 A 3

.PDF文档 专利 多语言观点摘要生成方法、装置、设备、系统及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多语言观点摘要生成方法、装置、设备、系统及存储介质 第 1 页 专利 多语言观点摘要生成方法、装置、设备、系统及存储介质 第 2 页 专利 多语言观点摘要生成方法、装置、设备、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。