(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211111205.8
(22)申请日 2022.09.13
(65)同一申请的已公布的文献号
申请公布号 CN 115204164 A
(43)申请公布日 2022.10.18
(73)专利权人 国网湖北省电力有限公司信息通
信公司
地址 430077 湖北省武汉市洪山区徐 东大
街341号
专利权人 武汉大学
(72)发明人 王逸兮 刘昕 田猛 廖荣涛
李磊 叶宇轩 王晟玮 胡欢君
张剑 宁昊 董亮 刘芬 郭岳
罗弦 张岱 陈家璘
(74)专利代理 机构 武汉楚天专利事务所 421 13
专利代理师 胡盛登(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114547252 A,202 2.05.27
CN 113704396 A,2021.1 1.26
CN 113688215 A,2021.1 1.23
CN 112434331 A,2021.0 3.02
CN 114692603 A,2022.07.01
杨政. 《基 于层次化表示的电力文本命名实
体识别和匹配算法》 . 《计算机与现代化》 .202 2,
审查员 严颖
(54)发明名称
一种电力系统通信敏感信息识别方法、 系统
及存储介质
(57)摘要
本申请涉及一种电力系统通信敏感信息识
别方法、 系统及存储介质, 方法包括设计模型, 模
型的输入为文本; 输出为文本对应的类别概率和
敏感信息的BI O标记序列; 构造数据集, 收集一定
规模的电力通信领域中的中文文本, 将文本分割
为句子, 对每个句子标注其中的敏感信息, 同时
对每个句子标明其类别信息, 构造出数据集; 训
练和测试模型, 构造的数据集按比例划分训练
集、 验证集和测试集, 加载到设计的模型上, 依据
设计的模型损失函数对数据集进行训练和测试;
电力系统通信敏感信息识别, 将未进行敏感信息
标记的电力通信中文文本输入已训练和测试完
成的模型, CRF层的输 出即为敏 感信息标记结果,
完成敏感信息的识别。 本申请提高敏感信息识别
的准确度。
权利要求书2页 说明书7页 附图2页
CN 115204164 B
2022.12.02
CN 115204164 B
1.一种电力系统通信敏感信息识别方法, 其特 征在于, 包括以下 具体步骤:
设计模型, 模型包括: ERNIE层、 第一词性特征获取层、 第二词性特征获取层、 词性特征
拼接层、 第一BiLSTM层、 第二BiLSTM层、 隐状态序列拼接层、 分类层、 标记层; 所述分类层包
括第一全连接层和sigmoid层, 所述标记层 包括第二全 连接层和CRF层, 模 型的输入为: 文本
X; 输出为: 文本X对应的类别概率c和敏感信息的BIO标记序列y; 模型损失函数由分类损失
函数与CRF损失函数加权求和得到;
构造数据集, 收集一定规模的电力通信领域中的中文文本, 利用句号、 问号、 感叹号、 分
号、 省略号将文本分割为句子, 对每个句子标注 其中的敏感信息, 同时对每个句子标明其类
别信息, 取值为 1和0, 分别表 示包含敏感信息和不包含敏感信息, 两种类别的句子数量相等
从而构造出 数据集;
训练和测试模型, 构造的数据集按比例划分训练集、 验证集和测试集, 加载到设计的模
型上, 依据设计的模型损失函数对数据集进行训练和 测试;
电力系统通信敏感信 息识别, 将未进行敏感信 息标记的电力通信中文文本输入已训练
和测试完成的模型, CRF层的输出即为敏感信息标记结果, 完成敏感信息的识别;
所述ERNIE层获取文本字符级语义特征b, 所述第一词性特征获取层利用jieba分词工
具获取文本字符级大类词性特征 pj, 第二词性特征获取层利用LTP分词工具获取文本字符
级大类词 性特征pl, 所述词性特征拼接层将大类词 性特征pj和大类词 性特征pl拼接得到大
类词性特征序列 p, 第一BiLSTM层将语义特征b转化为隐状态序列 hb, 第二BiLSTM层将大类
词性特征序列 p转化为隐状态序列 hp, 隐状态序列拼接层将隐状态序列 hb和隐状态序列 hp拼
接得到隐状态序列 h。
2.根据权利要求1所述的一种电力系统通信敏感信 息识别方法, 其特征在于, 对于分类
层, 分类损失函数为:
(1)
其中
为预期类别, c为分类层输出的类别概 率;
对于标记层, CRF损失函数为:
(2)
其中,
为CRF层的预期输出标记序列,
为
对应的概率序列, Y表示所有可 能的标
记序列集 合,
为Y中一个可能的标记序列, 得分函数
的定义如下:
(3)
其中,y={y1, y2, y3,…, yn}为某标记序列, z={z1, z2, z3,…, zn}为该标记序列对应
的概率序列, 其中 zi为标记总数大小的向量, 表示文本第i个单词属于各个标记的概率, A为
概率转移矩阵,
总损失函数 可定义如下:权 利 要 求 书 1/2 页
2
CN 115204164 B
2 (4)
其中, r为系数, 考虑到模型的主要任务是标记敏感信息, 故 r< 0.5, r取0.1、 0.2、 0.3、
0.4, 具体数值 根据实验确定 。
3.根据权利要求1所述的一种电力系统通信敏感信息识别方法, 其特征在于, 训练集、
验证集和 测试集的比例为6:2:2或者8 :1:1。
4.一种电力系统通信敏感信 息识别系统, 用以实现如权利要求1 ‑3任一所述的方法, 其
特征在于, 包括,
模型设计模块, 用以设计电力系 统通信敏感信息识别模型, 模型包括ERNIE层、 第一词
性特征获取层、 第二词性特征获取层、 词性特征拼接层、 第一BiLSTM层、 第二BiLSTM层、 隐状
态序列拼接层、 分类层、 标记层, 分类层包括第一全连接层和sigmoid层, 标记层 包括第二全
连接层和CRF层;
数据集构造模块, 用以收集一定规模的电力通信领域中的中文文本, 利用句号、 问号、
感叹号、 分号、 省略号将文本分割为句 子, 对每个句子标注其中的敏感信息, 同时对每个句
子标明其类别信息, 取值为 1和0, 分别表 示包含敏感信息和不包含敏感信息, 两种类别的句
子数量相等从而构造出 数据集;
模型训练和测试模块, 用以将构造的数据集按比例划分训练集、 验证集和测试集, 加载
到设计的模型 上, 依据设计的模型损失函数对数据集进行训练和 测试;
电力系统通信敏感信 息识别模块, 用以将未进行敏感信 息标记的电力通信中文文本输
入已训练和 测试完成的模型, CRF层的输出即为敏感信息标记结果, 完成敏感信息的识别。
5.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有程序代码,
所述程序代码被处理器执行时, 实现如权利要求1 ‑3任一所述的电力系统通信敏感信息识
别方法的步骤。权 利 要 求 书 2/2 页
3
CN 115204164 B
3
专利 一种电力系统通信敏感信息识别方法、系统及存储介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:53上传分享