(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211133361.4
(22)申请日 2022.09.17
(71)申请人 上海财经 大学
地址 200433 上海市杨 浦区国定路7 77号
(72)发明人 张涛 罗震 张玥杰
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 陆飞 陆尤
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
融合公司新闻故事线特征的财务粉饰识别
系统
(57)摘要
本发明属于财务粉饰识别技术领域, 具体为
融合公司新闻故事线特征的财务粉饰识别系统。
本发明系统包括: 公司新闻故事线特征表示模
块、 混合注意力分类模块; 所述特征表示模块利
用多层聚类方法获取公司新闻故事线并根据新
闻故事线树结构对新闻标题句向量递归加权求
和得到新闻故事线向量表示; 混合注 意力分类模
块利用自注 意力机制及公司指标 维度‑新闻故事
线交叉注意力机制获取公司新闻故事线的不同
表示, 通过拼接融合得到公司新闻特征向量并进
而得到公司财务粉饰风险判别结果。 本发明通过
发掘公司新闻之间的关联信息, 降低模型复杂
度, 提升模型输出风险指标的准确性; 通过多角
度挖掘公司新闻风险信号, 降低非粉饰风险负面
新闻对判别结果的影响。
权利要求书3页 说明书9页 附图2页
CN 115544238 A
2022.12.30
CN 115544238 A
1.一种融合公司新闻故事线特征的财务粉饰识别系统, 其特征在于, 包括公司新闻故
事线特征表示模块、 混合注意力 分类模块; 所述公司新闻故事线特征表示模块利用新闻故
事线抽取得到公司报告期内的关联新闻集, 并将其转换为故事线向量序列, 输出到混合注
意力分类模块; 所述混合注意力 分类模块利用自注意力机制及指标维度 ‑新闻混合注意力
机制获取公司新闻故事线的风险表征向量, 并通过全连接 分类层得到公司财务粉饰风险判
别结果; 其中, 新闻故事线为 树状发展结构, 定义故事线的树状结构为故事树。
2.根据权利要求1所述的财务粉饰识别系统, 其特征在于, 所述公司新闻故事线特征表
示模块, 包 含公司新闻故事线抽取子模块和新闻故事线向量表示子模块; 其中:
所述公司新闻故事线抽取子模块, 根据公司新闻在话题、 实体、 时间多方面的相似度构
建公司新闻故事线结构; 具体包括:
给定公司c的历 史新闻集:
其中各分量表示历 史新闻, |Dc|表示
历史新闻的总数, 上标c表示对应的公司c; 依据新闻文档关键词共现关系构建关键词图; 在
关键词图中根据边的介数中心性依次删除图中对结点连通性贡献较小的边, 划分后的关键
词子图即为 话题关键词图;
根据话题关键词与新闻关键词的相似度将新闻划分至话题中, 得到公司c的话题新闻
集:
其中, 各分量表示话题新 闻集, ti表示第i个话题,
表示话
题新闻的总数量, 上 标c表示对应的公司c;
对归属于同一话题 的新闻文档构建新闻文档关联图, 提取各新闻文档的发布时间、 地
点、 涉及实体; 具体地, 对属于同一话题新闻集
的新闻文档
根据地点文本相似
度
实体文本相似度
关键词相似度
及发布时间相似度
计算新闻文档综合相似度:
其中, β1, β2, β3, β4为自定义的相似度权重, 对于相似度高的文档, 在关联图中进行连接;
在文档关联图中通过Louvain社区发现算法发现多个归属于不同故事的新闻文档集:
其中, 各分量表示故事新闻集, si表示第i个故事,
表示故事
新闻的总数量, 上标c表示对 应的公司c, 对于公司故事新闻文档集
在其关联子图中通过
最大生成树 算法获取新闻故事线的树状发展结构, 定义故事线的树状结构为故事树;
所述新闻故事线向量表示子模块, 根据公司故事线树状结构, 构造故事嵌入表示, 具体
构造规则为: 将故事线中时间跨度最长的事件线定义为主干事件线, 其余作为分支事件线,
故事线中每个结点的初始结点向量定义为其对应新闻标题句向量, 分支事件线起始结点的
向量表示定义 为:
权 利 要 求 书 1/3 页
2
CN 115544238 A
2其中,
为故事线中分支节点vi对应的子分支集合, mi为节
点vi对应的子分支起始下标,
为分支
的向量表示, α 为故事线分支衰减系数, hi表
示新闻i的标题句向量; 定义主干事件线为故事树中发生时间相 差最大的新闻节点间的路
径, 记为b1, 基于公式(2), 通过递归地加权组合计算可以得到故事线主干事件线中各结点
的向量表示, 于是新闻故事树的嵌入表示 为主干事 件线上各节点嵌入表示的均值:
3.根据权利要求2所述的财务粉饰识别系统, 其特征在于, 所述混合注意力分类模块,
包含新闻故事线自注意力子模块和公司指标维度 ‑新闻故事线交叉注意力子模块; 所述新
闻故事线自注 意力子模块将公司新闻故事线向量序列所构成的矩阵
输入自
注意力网络SATT, 以获得更新的公司新闻故事线特征表示向量: esatt=SATT(Sc), 其中, nsl
表示公司c新闻故事线的数量, dsemb为新闻故事线嵌入维度; 所述公司指标维度 ‑新闻故事
线交叉注意力子模块将公司指标分析维度关键词 特征矩阵与新闻故事线话题关键词矩阵
通过缩放点积的方式获取故事线注意力分布, 将注意力分布矩阵与故事线向量序列相乘并
通过全局平均以获得公司经 营维度新闻表征向量。
4.根据权利要求3所述的财务粉饰识别系统, 其特征在于, 所述混合注意力分类模块的
具体处理流程为:
从公司的经营分析角度出发, 将公司的指标划分为若干维度, 指标维度记为
nasp为指标维度 数量, 每个维度对应若干维度关键词, 记维度ak对应的关键
词为
对应的词向量为
为维度ak对应的关键词数量, 计算关
键词向量的平均值, 得到财务维度特 征:
记公司指标分析维度矩阵
其
中, dwemb为词向量维度,
为维度ak的特征向量权重, 记样本i为在维度ak下的公司 指标为
为维度ak下的指标数量,
由
经过z标准化后的
均值计算得到; 在新闻故事线的构造过程中, 得到故事线对应的话题tp及话题关键词
为tp对应的关键词数量, 关键词向量为
将话题关
键词词向量均值作为 新闻故事线话题向量, 计算得到话题 tp的向量表示:
于是, 公司c的新闻故事话题 矩阵:
其中, nsl为公司新闻故事线数量;
给定公司c的新闻故事线向量序列Sc, 新闻故事线话题矩阵Pc以及公司指标分析维度矩
阵Ac; 键矩阵ScWs,
dxatt为注意力嵌入维度;权 利 要 求 书 2/3 页
3
CN 115544238 A
3
专利 融合公司新闻故事线特征的财务粉饰识别系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:16:03上传分享