(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211059228.9
(22)申请日 2022.08.31
(71)申请人 广州宝立科技有限公司
地址 510000 广东省广州市天河区黄埔大
道西100号之二1401室(仅限办公)
(72)发明人 钟志宏 陈肇文 徐永兴
(74)专利代理 机构 广州市律帆知识产权代理事
务所(普通 合伙) 44614
专利代理师 余永文
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06N 5/02(2006.01)
G06N 3/04(2006.01)
(54)发明名称
基于自然语言处 理的业务网站监测系统
(57)摘要
本申请属于互联网及人工智能技术领域, 涉
及基于自然语言处理的业务网站监测系统, 包
括: 数据在线处理子系统通过互联网接收 由属于
目标业务领域的受监测业务网站提供的第一业
务网站数据并发送至数据采集清洗子系统, 数据
采集清洗子系统对第一业务网站数据进行清洗
得到第二业务网站数据并发送至数据资源管理
子系统, 数据资源管理子系统将来自数据采集清
洗子系统的第二业务网站数据传输至数据分析
应用子系统, 数据分析应用子系统利用经训练的
基于Transformer架构的预训练语言模型对 来自
数据资源管理子系统的第二业务网站数据进行
分析, 该基于Transformer架构的预训练语言模
型利用目标业务领域的文本语料训练得到; 该方
案能够提高对业务网站数据监测分析的准确性
和效率。
权利要求书3页 说明书11页 附图2页
CN 115438183 A
2022.12.06
CN 115438183 A
1.一种基于自然语言处理 的业务网站监测系统, 其特征在于, 所述系统包括: 数据在线
处理子系统、 数据采集清洗 子系统、 数据资源管理子系统和数据分析应用子系统; 其中,
所述数据在线处理子系统, 用于通过互联网接收由属于目标业务领域的受监测业务网
站提供的第一 业务网站数据, 发送至所述数据采集清洗 子系统;
所述数据采集清洗子系统, 用于对所述第 一业务网站数据进行清洗得到第 二业务网站
数据, 将所述第二 业务网站数据发送至所述数据资源管理子系统;
所述数据资源管理子系统, 用于将来自所述数据采集清洗子系统 的第二业务网站数据
传输至所述数据分析应用子系统;
所述数据分析应用子系统, 用于获取经训练的基于Transformer架构的预训练语言模
型, 利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进 行分
析; 其中, 所述基于Transformer架构的预训练语 言模型利用所述目标业务领域的文本语料
训练得到 。
2.根据权利要求1所述的系统, 其特征在于, 所述基于Transformer架构的预训练语言
模型依次包括: 嵌入层、 多层Transformer Encoder结构和输出层; 所述嵌入层包括字嵌入
部分、 块嵌入部分和位置嵌入部分; 所述Transformer Encoder结构包括Transformer结构
和Encoder结构; 所述Encoder结构包括归一 化层和全连接层;
所述数据分析应用子系统, 进一步用于利用所述目标业务领域的文本语料进行掩码训
练, 得到所述基于Transformer 架构的预训练语言模型。
3.根据权利要求2所述的系统, 其特 征在于, 所述Encoder结构对应的运 算方式为:
其中, X表示Encoder结构输入, YEncoder表示Encoder结构输出, MHA(X)表示Transformer
结构的输出, LayerNorm(.)表示对矩阵进行归一化运算, FeedForward(L1)表示全 连接层的
输出。
4.根据权利要求2所述的系统, 其特征在于, 数据分析应用子系统, 还用于利用GPU线程
对掩码的文本语料进行训练, 以及利用CPU对下一批文本语料进行掩码处理; 其中, 所述掩
码包含字符掩码、 实体掩码和片段掩码中的一种或多种;
所述数据分析应用子系统, 进一步用于在训练过程中, 根据所述基于Transformer架构
的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标, 得到输出序列
的掩码表示, 根据所述输出序列的掩码表示计算掩码位置对应的词表上 的概率分布矩阵,
根据所述概率分布矩阵计算交叉熵损失, 根据所述交叉熵损失调整每一Transformer
Encoder结构的网络参数。
5.根据权利要求4所述的系统, 其特征在于, 所述数据分析应用子系统, 进一步用于获
取通用文本语料库和所述目标业务领域的文本语料库, 利用所述通用文本语料库中的通用
文本语料进行掩码训练得到初步的基于Tr ansformer架构的预训练语言模型, 在所述初步
的基于Transformer架构的预训练语言模型的基础上, 利用所述目标业务领域的文本语料
库中的文本语料进行掩码训练, 得到所述基于Transformer 架构的预训练语言模型。
6.根据权利要求1所述的系统, 其特征在于, 所述数据在线处理子系统进一步用于对输权 利 要 求 书 1/3 页
2
CN 115438183 A
2出的第一 业务网站数据进行打包处 理, 并在打包的数据包中添加安全校验信息;
所述数据采集清洗子系统进一步用于对所述安全校验信息进行校验后解包得到第一
业务网站数据; 其中, 所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使
用的密钥打上的使用时间标签;
所述数据采集清洗子系统预先接收一份密钥使用列表, 并根据 所述密钥使用列表中记
录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的
数据包进行 校验。
7.根据权利要求6所述的系统, 其特征在于, 所述数据在线处理子系统进一步用于对输
出的第一业务网站数据的关键字进行识别; 根据所述关键字识别所述第一业务网站数据的
重要性程度并划分等级, 并分别对所述第一业务网站数据打上等级标签; 其中, 所述等级包
括高级、 中级和低级;
所述数据采集清洗子系统进一步用于对所述高级等级的第一业务网站数据进行逐条
清洗处理, 对所述中级等级的第一业务网站数据清除异常数据后再进行清洗处理, 以及对
所述低级等级的第一业务网站数据清除异常数据且对同类数据融合后进 行清洗处理, 输出
第二业务网站数据。
8.根据权利要求7所述的系统, 其特征在于, 所述数据分析应用子系统进一步用于对所
述第二业务网站数据进行分析时, 向数据采集清洗 子系统实时反馈数据训练状态;
所述数据采集清洗子系统进一步用于根据 所述数据训练状态, 并计算出所需使用的数
据清洗函数表中的目标数据清洗函数; 其中, 数据采集清洗子系统中预存有数据清洗函数
表, 所述数据清洗函数表上记录有多种不同的数据清洗函数; 从所述数据清洗函数表中读
取所述目标 数据清洗函数对第一 业务网站数据进行清洗处 理。
9.根据权利要求8所述的系统, 其特征在于, 所述数据采集清洗子系统进一步用于将目
标数据清洗函数以及当前的数据清洗进度信息反馈 至数据在线处 理子系统;
所述数据在线处理子系统进一步用于根据目标数据清洗函数以及数据清洗进度信 息,
对数据采集清洗子系统的数据处理量进行预测分析; 并根据所述预测分析结果确定数据采
集清洗子系统的数据处理 能力值, 根据所述数据处理 能力值对输出的第一业务网站数据进
行优化处理; 其中, 所述优化处理包括: 若数据处理能力值低于设定阈值, 调整对低级等级
的第一业务网站数据进行融合处理时的融合程度, 或者根据设定规则抛弃部分低级等级的
第一业务网站数据。
10.根据权利要求1所述的系统, 其特 征在于, 所述数据在线处 理子系统, 进一 步用于:
通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站
数据;
根据所述加密的第 一业务网站数据的发送时间, 从预置的密钥库中获取所述发送时间
对应的密钥;
利用所述发送时间对应的密钥对所述加密的第 一业务网站数据进行解密, 得到所述第
一业务网站数据, 发送至所述数据采集清洗 子系统;
所述数据分析应用子系统, 进一 步用于:
确定所述第一 业务网站数据对应的发布 平台;
根据所述发布平台, 从模型库中获取所述发布平台对应的经训练的基于Transformer权 利 要 求 书 2/3 页
3
CN 115438183 A
3
专利 基于自然语言处理的业务网站监测系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:35上传分享