(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211091542.5
(22)申请日 2022.09.07
(65)同一申请的已公布的文献号
申请公布号 CN 115186654 A
(43)申请公布日 2022.10.14
(73)专利权人 太极计算机股份有限公司
地址 100191 北京市海淀区北四环中路21 1
号
(72)发明人 吕灏 李庆 韩国权 祁纲
李宝东 程建润
(74)专利代理 机构 北京智桥联合知识产权代理
事务所(普通 合伙) 11560
专利代理师 金光恩
(51)Int.Cl.
G06F 40/253(2020.01)G06F 40/211(2020.01)
G06F 40/186(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(56)对比文件
CN 112364141 A,2021.02.12
CN 111858913 A,2020.10.3 0
CN 113590809 A,2021.1 1.02
CN 109657054 A,2019.04.19
王凯祥.面向查询的自动文本摘要技 术研究
综述. 《计算机科 学》 .2018,
审查员 周永传
(54)发明名称
一种公文 文本摘要生成方法
(57)摘要
本申请提供一种公文文本摘要生 成方法, 所
述方法包括: 对目标公文文本进行分句处理得到
多个分句; 根据所述目标 公文文本的类型得到各
个分句对应的分句权重; 将所述目标公文文本的
多个分句以及对应的分句权重输入摘要生成模
型, 得到所述摘要生成模型输出的公文文本摘
要; 其中, 训练所述摘要生成模型使用的损失函
数包括目标审批关键词命中函数。 本发明提供的
公文文本摘要生成方法, 考虑到了不同类型的公
文文本的结构特征, 将目标审批关键词命中函
数、 审批时长调整函数等适用于公文文本自动审
批场景的内容设计到了损失函数中, 不但使 得所
生成的公文文本摘要准确性更高, 还能使得公文
文本摘要生成的长度自适应地根据审批需求进
行调整。
权利要求书2页 说明书8页 附图2页
CN 115186654 B
2022.11.22
CN 115186654 B
1.一种公文 文本摘要生成方法, 其特 征在于, 所述方法包括:
对目标公文 文本进行分句处 理得到多个分句;
根据所述目标公文 文本的类型 得到各个分句对应的分句权 重;
将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型, 得到所述摘
要生成模型输出的公文 文本摘要;
其中, 训练所述摘要生成模型使用的损 失函数包括目标审批关键词命中函数; 所述目
标审批关键词命中函数用于表征训练过程中将样本公文文本输入至所述摘要生成模型后,
所输出的样本公文文本摘要中目标审批 关键词的覆盖率差值; 所述目标审批关键词是在公
文数据库中查找与所述样本公文 文本相同类型的公文 文本对应的审批信息并提取到的;
其中, 所述目标审批关键词通过如下步骤生成:
在公文数据库中查找所有样本公文 文本的审批信息;
提取所述审批信息中的关键词;
根据所述样本公文文本的类型, 将所述关键词添加到对应类型的公文文本的目标审批
关键词;
所述样本公文 文本摘要中目标审批关键词的覆盖率差值 通过如下 方式计算得到:
将所述样本公文文本摘要的文本 内容, 与所述样本公文文本摘要对应的对应类型的公
文文本的目标审批关键词进行一 一匹配;
统计匹配过程中所述样本公文文本摘要命中所述目标审批关键词的关键句子和关键
文字的比例;
将所述关键句子和关键文字的比例分别与预设的关键句子和关键文字的平均比例进
行比较, 得到所述样本公文 文本摘要中目标审批关键词的覆盖率差值;
所述根据所述目标公文 文本的类型 得到各个分句对应的分句权 重, 具体包括:
根据所述目标公文文本的类型获取所述目标公文文本的结构化信息; 其中, 所述结构
化信息根据对应 类型的目标公文 文本的标准模板和关键文本统计信息提取 得到;
根据所述目标公文文本对应的多个分句与 所述结构化信 息的匹配结果, 确定各个分句
对应的分句权 重。
2.根据权利要求1所述的公文文本摘要生成方法, 其特征在于, 所述目标公文文本的关
键文本统计信息是通过人工标注公文数据库中同类型的目标公文文本的关键段落和关键
语句得到的。
3.根据权利要求2所述的公文 文本摘要生成方法, 其特 征在于, 所述方法还 包括:
定期根据公文数据库中新加入的公文文本, 更新目标公文文本的对应类型的结构化信
息。
4.根据权利要求1所述的公文文本摘要生成方法, 其特征在于, 训练所述摘要生成模型
使用的损失函数还包括审批时长调整函数; 所述审批时长调整函数用于根据所述样本公文
文本在电子审批系统中记录的审批时长与标准审批时长进 行比较, 训练所述摘要生成模型
输出的公文 文本摘要的长度。
5.根据权利要求1所述的公文 文本摘要生成方法, 其特 征在于, 所述方法还 包括:
定期根据公文数据库中新加入的公文文本的审批信 息, 更新目标公文文本的对应类型
的目标审批关键词。权 利 要 求 书 1/2 页
2
CN 115186654 B
26.根据权利要求1所述的公文文本摘要生成方法, 其特征在于, 训练所述摘要生成模型
使用的损失函数还包括语法审核函数; 所述语法审核函数用于根据所述样本公文文本摘要
的语法特 征调整所述摘要生成模型的参数。
7.根据权利要求1所述的公文文本摘要生成方法, 其特征在于, 根据标点符号的位置或
根据预设的句子 长度对目标公文 文本进行分句处 理得到多个分句。权 利 要 求 书 2/2 页
3
CN 115186654 B
3
专利 一种公文文本摘要生成方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:53上传分享