(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210575250.2
(22)申请日 2022.05.25
(71)申请人 苏州中科劢诺信息科技有限公司
地址 215123 江苏省苏州市工业园区金鸡
湖大道88号人工智能产业园D1单 元
申请人 中科苏州智能计算 技术研究院
(72)发明人 杨鹏 张贝贝 李锦绚 成昊
敖翔
(74)专利代理 机构 南京苏科专利代理有限责任
公司 32102
专利代理师 陈忠辉
(51)Int.Cl.
G06F 16/9035(2019.01)
G06F 40/211(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 40/02(2012.01)
(54)发明名称
一种行业财经新闻事 件抽取方法及系统
(57)摘要
本发明揭示了一种行业财经新闻事件抽取
方法及系统, 该方法主要包括数据制定与 收集、
训练数据标注、 模型构建和事件抽取, 具体为应
金融垂直领域的需求, 通过网络爬虫算法获取规
模化的行业财经新闻数据存储至数据库, 并进行
数据清洗与预处理, 人工标注及筛查。 通过模仿
人们阅读习惯的抽取式摘要模型, 将行业财经新
闻事件抽取的核心方法分为文档粗读、 文档精读
与事件抽取三个阶段性模块。 分先后提取文档级
特征及各个句子的局部特征, 并通过亲和度计算
和事件得分计算、 排序并结合动态选择机制抽取
事件。 应用该技术解决方案在行业财经新闻的数
据分析中, 有利于提高事件抽取的准确率和篇章
级文档的处理效率, 可精确、 动态、 全面抽取其中
的重点事 件描述。
权利要求书1页 说明书5页 附图3页
CN 115098742 A
2022.09.23
CN 115098742 A
1.一种行业财经新闻事件抽取方法, 其特征在于包括: 数据制定与收集, 对应金融垂直
领域的需求, 通过网络爬虫算法获取规模化的财经新闻数据存储至数据库, 并进行数据清
洗与预处 理;
训练数据标注, 对数据库中的财 经新闻数据进行 人工标注及筛查;
模型构建, 将粗读和精读两个阶段复合成模型, 其中所述粗读阶段提取文档级特征, 每
个句子的句向量编码及句 子层面的若干局部特征, 堆叠输出为特征编码; 所述精读阶段根
据特征编 码中的句子向量和文档级 特征复读, 利用显著性、 覆盖范围、 冗余剔除三方面指标
计算各个句子的亲和度, 并设置句子可被作为核心事 件的判读阈值;
事件抽取, 对精读阶段所得的句子, 通过残差神经网络计算得分并从高到低 排序, 再通
过动态选择机制, 使用模型从文档中抽取 所需数量事 件描述。
2.根据权利要求1所述行业财经新闻事件抽取方法, 其特征在于: 事件抽取中, 所述动
态选择机制为自定义设置句子的得分下限和句子间的得分差异下限, 判断当前句子的得分
高于任意下限, 则抽取事 件, 反之则终止事 件抽取。
3.根据权利要求1所述行业财经新闻事件抽取方法, 其特征在于: 训练数据标注中, 通
过一部分人工对获取到的行业财经新闻数据标注出其中的重要事件描述, 并结合另一部分
人工对标注内容进行全部 筛查或按比例的随机 筛查。
4.根据权利要求1所述行业财经新闻事件抽取方法, 其特征在于: 粗读阶段中提取文档
级特征的方法为使用字 符级别和句子级别的双向长 短型记忆神经网络Bi ‑LSTM将文档编码
为固定维度的句子嵌入, 并输入至额外增加的Transformer层, 提取得到文档级特征, 且文
档级特征对应每个时刻下 前向和后向的信息 。
5.根据权利要求1所述行业财经新闻事件抽取方法, 其特征在于: 粗读阶段中提取局部
特征的方法为先通过预训练的BERT模型获取文档中每个句子的句向量编码, 再使用卷积神
经网络CNN对各段落的主旨细化, 得到句子层面的若干局部特 征。
6.根据权利要求1所述行业财经新闻事件抽取方法, 其特征在于: 精读阶段中所述显著
性指标为句子与文档中心思想的接近程度, 覆盖范围指标为句子与其它段落信息的匹配程
度, 冗余剔除指标为应 禁止未选择的且与已提取的句子相似的句子 。
7.一种行业财 经新闻事 件抽取系统, 其特 征在于包括:
数据制定与收集单元, 用于对应金融垂直领域的需求, 通过网络爬虫算法获取规模化
的财经新闻数据存 储至数据库, 并进行 数据清洗与预处 理;
训练数据标注单 元, 用于对数据库中的财 经新闻数据进行 人工标注及筛查;
模型构建单元, 用于将粗读和精读两个阶段复合成模型, 其中所述粗读 阶段提取文档
级特征, 每个句子的句向量编码及句子层面的若干局部特征, 堆叠输出为特征编 码; 所述精
读阶段根据特征编码中的句子向量和文档级 特征复读, 利用显著 性、 覆盖范围、 冗余剔除三
方面指标计算各个句子的亲和度, 并设置句子可被作为核心事 件的判读阈值;
事件抽取单元, 用于对精读 阶段所得的句子, 通过残差神经网络计算得分并从高到低
排序, 再通过动态选择机制, 使用模型从文档中抽取 所需数量事 件描述。
8.根据权利要求7所述行业财经新闻事件抽取系统, 其特征在于: 上述模型构建单元中
包含用于提取文档级特征的双向长短型记忆神经网络Bi ‑LSTM, 提取局部特征的预训练
BERT模型和细化段落主旨的卷积神经网络 CNN。权 利 要 求 书 1/1 页
2
CN 115098742 A
2一种行业财经新 闻事件抽取方 法及系统
技术领域
[0001]本发明涉及 一种计算机阅读新闻并抽取其中事件的技术, 尤其涉及一种受人类阅
读启发的行业财 经新闻事 件抽取方法及系统。
背景技术
[0002]在便捷、 高速的网络舆情传播环境下, 信息传播呈现指数级裂变, 金融舆情极易发
酵。 一件看似微小的舆情事件所产生的蝴蝶效应可能会造成证券市场的震 荡。 因此, 挖掘分
析舆情对于金融风险防范与化解有积极意义。 但在金融领域中,大量的财经新闻、 行业研报
等非结构化文本篇幅过多,文 辞冗长, 通常需要专 业人士花费大量时间来阅读与解析。 从海
量行业财 经新闻中自动抽取从业 者想要的事 件描述成了当下急需解决的问题。
[0003]然而, 受语言特性、 文本特点和专业领域知识等多方面的影响, 当前行业财经新闻
中的金融事件抽取研究存在如下困难: 1)行业财经新闻的文本普遍具有篇幅长、 关键信息
不突出、 句法 复杂度高等特点; 2) 至今 没有金融领域事件抽取任务的标准定义, 金融领域事
件的定义 也没有统一的规范。
[0004]在基于流水线模型的事件抽取方法中, 通常构建相应的触发词词典或设计触发词
特征来抽取包含的事件。 但该方法容易面临着语言特性、 语法、 词义理解带来的困难。 最近
的研究中, 很多学者将事件抽取视为序列标记任务, 其中每个句 子都被单独处理并确定是
否应该提取它。 各种神经网络用于标记每个句子, 并使用交叉熵损失进 行训练, 以最大化真
实标记序列的可能性, 这可能会导致交叉熵目标函数和目标函数之间的不匹配。 还有一些
基于强化学习的方法, 通过将交叉熵损失与惩罚因子相结合的训练模 型。 然而, 由于选择抽
取事件的顺序性, 大多 数按顺序处理文本, 并且倾向于抽取较早的句子而不是后面的句子,
不能洞悉全文主旨, 且无法动态全面的抽取出文中所有的事件。 因此, 事件抽取模型准确率
不能满足工业界金融领域复杂的需求。
发明内容
[0005]本发明的目的旨在 提出一种行业财经新闻事件抽取系统, 解决行业财经新闻事件
抽取准确性 不足、 效率低、 不全面、 实用性 不足的问题。
[0006]本发明实现上述目的的一项技术解决方案是, 一种行业财经新闻事件抽 取方法,
其特征在于包括: 数据制定与收集, 对应金融垂 直领域的需求, 通过网络爬虫算法获取规模
化的财经新闻数据存 储至数据库, 并进行 数据清洗与预处 理;
训练数据标注, 对数据库中的财 经新闻数据进行 人工标注及筛查;
模型构建, 将粗读和精读两个阶段复合成模型, 其中所述粗读阶段提取文档级特
征, 每个句子的句向量编 码及句子层面的若干局部特征, 堆叠输出为特征编 码; 所述精读阶
段根据特征编 码中的句子向量和文档级 特征复读, 利用显著 性、 覆盖范围、 冗余剔除三方面
指标计算各个句子的亲和度, 并设置句子可被作为核心事 件的判读阈值;
事件抽取, 对精读阶段所得的句子, 通过残差神经网络计算得分并从高到低排序,说 明 书 1/5 页
3
CN 115098742 A
3
专利 一种行业财经新闻事件抽取方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:19:36上传分享