iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211142582.8 (22)申请日 2022.09.20 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区益田路 5033号平安金融中心14、 15、 16、 37、 41、 44、 45、 46层 (72)发明人 简晓容  (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 姚章国 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 事件抽取方法、 装置、 计算机设备及存储介 质 (57)摘要 本发明公开了一种事件抽取方法, 该方法包 括获取原始语料, 对原始语料进行召回处理, 得 到预设日期跨度对应的待抽取文本集; 对所有待 抽取文本进行提取处理, 得到备选峰值短语; 获 取各备选峰值短语对应的时间词频以及逆时间 词频, 根据时间词频和所述逆时间词频确定各备 选峰值短语的时间词频值; 根据时间词频值, 从 所有备选峰值短语中筛选出事件峰值短语; 对所 有事件峰值 短语进行聚类合并, 得到至少一个文 本事件。 本发 明通过时间词频值从所有备选峰值 短语中筛选出事件峰值短语, 并对 所有事件峰值 短语进行聚类合并, 得到至少一个文本事件, 从 而提高了文本事件的抽取准确率, 也提升了文本 事件的抽取效果。 权利要求书2页 说明书12页 附图3页 CN 115455187 A 2022.12.09 CN 115455187 A 1.一种事 件抽取方法, 其特 征在于, 包括: 获取原始语料, 对所述原始语料进行召回处理, 得到预设日期跨度对应的待抽取文本 集; 所述待抽取文本集包括至少一个待抽取文本; 每一个待抽取文本均与属于所述预设日 期跨度内的一个发布日期关联; 对所有所述待抽取文本进行提取处 理, 得到备选峰值短语; 获取各所述备选峰值短语对应的时间词频以及逆时间词频, 根据 所述时间词频和所述 逆时间词频确定各所述备选峰值短语的时间词频值; 所述时间词频是指 每一个所述备选峰 值短语在与同一个所述 发布日期内关联的所有所述待抽取文本中的总出现次数; 所述逆时 间词频是指在所述预设日期跨度内的所有 所述发布日期内, 每一个所述备选峰值短语对应 具有大于零的所述时间词频的总日期数; 根据所述时间词频值, 从所有所述备选峰值短语中筛 选出事件峰值短语; 对所有所述事 件峰值短语进行聚类合并, 得到 至少一个文本事 件。 2.如权利要求1所述的事件抽取方法, 其特征在于, 所述对所有所述待抽取文本进行提 取处理, 得到备选峰值短语, 包括: 对所有所述待抽取文本进行分词处 理, 得到短语分词结果; 通过依存句法分析对所有短语分词结果进行提取处理, 得到各所述待抽取文本对应的 短语提取 结果; 根据所有所述短语提取 结果, 确定各短语提取 结果的词频以及逆文本频率; 根据所有所述短语提取 结果的词频以及逆文本频率, 确定各短语提取 结果的词频值; 根据所述词频值对所有所述短语提取 结果进行筛 选, 得到所有所述备选峰值短语。 3.如权利要求1所述的事件抽取方法, 其特征在于, 所述根据所述时间词频值, 从所有 所述备选峰值短语中筛 选出事件峰值短语, 包括: 对所有所述时间词频值进行排序, 并确定所述时间词频值中的下四分位数、 上四分位 数以及四分位距, 得到箱形图; 根据所述箱形图中所述下四分位数以及所述四分位距, 确定区间最大值; 将所有所述 时间词频值和所述 区间最大值进行比较, 将所述 时间词频值大于所述区间 最大值对应的所述备选峰值短语记录为所述事 件峰值短语。 4.如权利要求1所述的事件抽取方法, 其特征在于, 所述对所有所述事件峰值短语进行 聚类合并, 得到 至少一个文本事 件, 包括: 获取在同一所述发布日期 发布的所有所述待抽取文本 内出现的所述事件峰值短语, 并 构建各所述事件峰值短语处于所述发布日期内的节点; 将处于同一所述发布日期内的所有所述节点两两相连, 构建第一类边, 并确定所述第 一类边的第一 边权重值; 将同时处于相邻两个所述发布日期内且对应于同一个所述事件峰值短语的所述节点 相连, 构建第二类边, 并确定第二 边权重值; 根据所述第一边权重值、 所述第二边权重值以及所述边构建短语节点图, 根据所述短 语节点图对所有所述事 件峰值短语进行聚类合并, 得到 至少一个所述文本事 件。 5.如权利要求4所述的事件抽取方法, 其特征在于, 所述确定所述第 一类边的第 一边权 重值, 包括:权 利 要 求 书 1/2 页 2 CN 115455187 A 2确定处于同一所述发布日期内的所有所述第一类边的互信息熵以及余弦相似度; 根据各所述第 一类边对应的所述互信 息熵和所述余弦相似度均处理, 确定所述第 一边 权重值。 6.如权利要求5所述的事件抽取方法, 其特征在于, 所述确定处于同一所述发布日期内 的所有所述第一类边的余弦相似度, 包括: 获取出现各所述事件峰值短语的所有所述待抽取文本; 通过预设转换模型对确定的所有所述待抽取文本进行向量转换, 得到与各待抽取文本 相对应的文本向量; 对所有所述文本向量进行加权平均处 理, 得到所述事 件峰值短语对应的事 件向量; 根据所述事 件向量确定处于同一所述发布日期内的所有所述第一类边的余弦相似度。 7.如权利要求4所述的事件抽取方法, 其特征在于, 所述根据所述短语节点图对所有所 述事件峰值短语进行聚类合并, 得到 至少一个所述文本事 件, 包括: 将所述短语节点图输入至社区发现算法, 以令所述社区发现算法根据 所述短语节点图 对所有所述事 件峰值短语进行聚类合并, 得到 至少一个事 件聚类簇; 将各所述事件聚类簇中心对应的所述事 件峰值短语确定为所述文本事 件。 8.一种事 件抽取装置, 其特 征在于, 包括: 文本召回模块, 用于获取原始语料, 对所述原始语料进行召回处理, 得到预设日期跨度 对应的待抽取文本集; 所述待抽取文本集包括至少一个待抽取文本; 每一个待抽取文本均 与属于所述预设日期跨度内的一个发布日期关联; 短语提取模块, 用于对所有所述待抽取文本进行提取处 理, 得到备选峰值短语; 时间词频值确定模块, 用于获取各所述备选峰值短语对应的时间词频以及逆时间词 频, 根据所述时间词 频和所述逆时间词 频确定各所述备选峰值短语的时间词 频值; 所述时 间词频是指每一个所述备选峰值短语在与同一个所述发布日期 内关联的所有所述待抽取 文本中的总出现次数; 所述逆时间词频是指在所述预设日期跨度内的所有所述发布日期 内, 每一个所述备选峰值短语对应具有大于零的所述时间词频的总日期数; 短语筛选模块, 用于根据所述时间词频值, 从所有所述备选峰值短语中筛选出事件峰 值短语; 文本事件确定模块, 用于对所有所述事件峰值短语进行聚类合并, 得到至少一个文本 事件。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述事 件抽取方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述事 件抽取方法。权 利 要 求 书 2/2 页 3 CN 115455187 A 3

PDF文档 专利 事件抽取方法、装置、计算机设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 事件抽取方法、装置、计算机设备及存储介质 第 1 页 专利 事件抽取方法、装置、计算机设备及存储介质 第 2 页 专利 事件抽取方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。