(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211122504.1
(22)申请日 2022.09.15
(71)申请人 华南师范大学
地址 528225 广东省佛山市南海区狮山 南
海软件园华 南师范大学软件学院
(72)发明人 冼广铭 谢浚鸿
(74)专利代理 机构 广州骏思知识产权代理有限
公司 44425
专利代理师 张金龙
(51)Int.Cl.
G06F 16/9536(2019.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06Q 50/00(2012.01)
(54)发明名称
中文社交网络机器人检测方法、 装置、 设备
及存储介质
(57)摘要
本发明涉及一种中文社交机器人检测方法,
包括获取待识别数据, 所述待识别数据包括用户
的账户信息和发言信息; 将所述待识别数据输入
至训练好的检测模型中, 得到所述待识别数据对
应的用户是否为社交网络机器人的分类结果, 其
中, 所述检测模型包括多层感知机、 嵌入模块、 预
训练语言模 型和分类器; 所述 嵌入模块包括位置
嵌入、 Emoji嵌入和拼音嵌入, 本申请融合了中文
特有的拼音嵌入和快速发展的Emoji嵌入这两个
模块, 根据中文社交网络的发言特性, 进行了针
对性的改进, 提高了 检测效率。
权利要求书3页 说明书13页 附图3页
CN 115544380 A
2022.12.30
CN 115544380 A
1.一种中文社交网络 机器人识别方法, 其特 征在于, 该 方法包括以下步骤:
获取待识别数据, 所述待识别数据包括用户的账户信息和发言信息;
将所述待识别数据输入至训练好的检测模型中, 得到所述待识别数据对应的用户是否
为社交网络 机器人的分类结果, 具体包括:
将所述账户信息输入至训练好的检测模型的多层感知机, 提取得到目标账户特征向
量, 其中, 所述检测模型还 包括嵌入 模块、 预训练语言模型和分类 器;
将所述发言信 息输入至训练好的检测模型的嵌入模块中, 编码得到所述发言信 息对应
的目标发言输入特 征向量, 其中, 所述嵌入 模块包括 位置嵌入、 Emoji嵌入和拼音嵌入;
将所述目标发言输入特征向量输入至训练好的检测模型的预训练语言模型中, 提取得
到目标发言特 征向量;
将所述目标 账户特征向量和所述目标发言特 征向量拼接, 得到目标用户特 征向量;
将所述目标用户特征向量输入至训练好的检测模型的分类器, 得到所述待识别数据对
应的用户是否为社交网络 机器人的分类结果。
2.根据权利要求1所述的一种中文社交网络机器人检测方法, 其特征在于, 所述检测模
型的训练过程包括如下步骤:
构建并存储数据集, 包括确认数据来源、 筛选数据、 清洗数据和划分数据, 所述数据集
包括用户的账户信息、 发言信息以及用户对应的真实标签;
将所述账户信 息输入至所述检测模型的多层感知机, 提取并得到账户特征向量, 其中,
所述检测模型还 包括嵌入 模块、 预训练语言模型和分类 器;
将所述发言信 息输入至所述检测模型的嵌入模块, 编码得到所述发言信 息对应的发言
输入特征向量, 其中, 所述嵌入 模块包括 位置嵌入、 Emoji嵌入和拼音嵌入;
将所述发言输入特征向量输入至所述检测模型的预训练语言模型中, 得到发言特征向
量;
将所述发言特 征向量和所述账户特 征向量拼接, 得到用户特 征向量;
将所述用户特征向量以及所述真实标签输入至所述检测模型的分类器进行训练, 得到
训练好的检测模型。
3.根据权利要求2所述的一种中文社交网络机器人检测方法, 其特征在于, 清洗所述数
据, 包括以下步骤:
对筛选过的所述数据中的URL进行无害化筛选、 对所述数据中的图片和外语进行剔除、
对所述数据中的Emoji进行统一 化筛选。
4.根据权利要求2所述的一种中文社交网络机器人检测方法, 其特征在于, 划分所述数
据, 包括以下步骤:
根据所述检测模型的待评价内容, 划分所述数据集中的均衡数据作为测试集, 所述数
据中的其余数据作为训练集, 其中, 所述待评价内容包括检测模型的检测能力, 话题更新的
泛化能力和未知话题的泛化能力;
将所述待评价内容对应的测试集输入至所述训练好的检测模型进行测试, 得到所述检
测模型对 所述待评价内容的检测性能, 所述检测性能通过检测得到的准确率、 召回率以及F
值判断。
5.根据权利要求 4所述的一种中文社交网络 机器人检测方法, 其特 征在于:权 利 要 求 书 1/3 页
2
CN 115544380 A
2定义“预测结果为机器人 ”这一事件为阳性, 所述检测模型的准确率(Precision)、 召回
率(Recal l)和F值(F ‑score)的计算公式如下:
6.根据权利要求1所述的一种中文社交网络机器人检测方法, 其特征在于, 所述预训练
语言模型为NEZHA模 型, 所述将所述 发言输入 特征向量输入至预训练语 言模型中, 得到发言
特征向量, 包括:
设发言输入特 征向量为x=(x0,…,xn‑1), 要先计算每两个位置之间的相对位置编码:
其中2k是偶数位置的编码、 2k ‑1是奇数位置的相对编码、 dz为序列的长度;
每一层都有3个不同的权重WQ,WK,WV, 通过WQ,WK变换放缩点积并加入相对位置信息可以
得到位置i和位置j的隐藏状态:
再对hij进行softmax得到αij:
得到每一层的输出结果z=(z0,…,zn‑1), 其中
将每一层
的输出结果z作为下一层的输入向量x继续计算。
7.根据权利要求1所述的一种中文社交网络机器人检测方法, 其特征在于, 所述分类器
是由多层全连接层构成的神经网络, 其分类 计算公式如下:
定义输入向量为X=(X0,…,Xn‑1), 输出向量为Y=(Y0,Y1), Y0和Y1分别对应非机器人和
机器人的概 率, 全连接层为 一个n×2维的权重矩阵:
输入向量X通过权 重矩阵H后可 得Z=X×H=(Z0,Z1);
8.一种中文社交网络 机器人检测装置, 其特 征在于, 包括:
数据获取模块, 用于获取待识别数据, 所述待识别数据包括用户的账户信息和发言信权 利 要 求 书 2/3 页
3
CN 115544380 A
3
专利 中文社交网络机器人检测方法、装置、设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:50上传分享