(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211032809.3
(22)申请日 2022.08.26
(71)申请人 苏州大学
地址 215000 江苏省苏州市吴中区石湖西
路188号
(72)发明人 张莉 苏畅之 金玲彬 赵雷
王邦军 周伟达
(74)专利代理 机构 苏州市中南伟业知识产权代
理事务所(普通 合伙) 32257
专利代理师 王广浩
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/335(2019.01)
G06K 9/62(2022.01)
(54)发明名称
基于稀疏线性在线学习的垃圾邮件分类方
法及系统
(57)摘要
本发明公开了一种基于稀疏线性在线学习
的垃圾邮件分类方法及系统, 方法包括: S1、 利用
随机傅里叶特征方法将特征化的电子邮件原始
数据集映射为高维特征空间的训练样本, 得到预
处理后的训练样本集; S2、 利用预处理后的训练
样本集训练线 性分类模型, 并采用FTRL算法对模
型参数进行更新, 得到训练后的线性分类模型;
S3、 利用训练后的线性 分类模型对电子邮件进行
预测分类。 本发 明基于稀 疏线性在线学习的垃圾
邮件分类方法通过将特征化的电子邮件原始数
据集映射为高维特征空间的训练样 本, 并在模型
训练时采用FTRL算法对模型参数进行更新, 在保
留了线性分类模型快速高效特点的同时进一步
取得了稀疏性, 提升 了分类准确率。
权利要求书2页 说明书6页 附图1页
CN 115329084 A
2022.11.11
CN 115329084 A
1.基于稀疏线性在线学习的垃圾邮件分类方法, 其特 征在于, 包括以下步骤:
S1、 利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的
训练样本, 得到预处 理后的训练样本集;
S2、 利用预处理后的训练样本集训练线性分类模型, 并采用FTRL算法对模型参数进行
更新, 得到训练后的线性分类模型;
S3、 利用训练后的线性分类模型对电子邮件进行 预测分类。
2.如权利要求1所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 所述
特征化的电子邮件原 始数据集X为:
X={(x1,y1),…,(xm,ym)}
其中, xi∈Rn为描述电子邮件原始数据集中第i封电子邮件文本信息特征的向量; yi∈
{‑1,+1}为xi对应标签; 若yi=‑1, 则邮件是垃圾邮件; 若yi=+1, 则邮件不是垃圾邮件; i=
1,2,…,m。
3.如权利要求2所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 步骤
S1包括:
S11、 对选定的平移不变核函数k(xi,xj)=k(xi‑xj)=k(Δx)进行傅里叶逆变换, 得到:
其中, p(u)为随机变量u ∈Rn的概率密度函数;
S12、 在p(u)上独立采集 N个样本, 记为u1,…,uN, 则特征空间中x的像表示 为:
其中, T表示 转置;
S13、 利用求得的高维显式映射z( ·):Rn→R2N将电子邮件原始数据 集中的样本x映射为
z(x), 得到预处 理后的训练样本集, 即{(z(x1),y1),…,(z(xm),ym)}。
4.如权利要求3所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 所述
线性分类模型f(x)表示 为:
f(x)=wTz(x)
其中, x为描述电子邮件原始数据集中电子邮件文本信息特征的向量; w∈R2N为模型参
数; z(x)为电子邮件原 始数据集中的样本x的高维显式映射; T表示 转置。
5.如权利要求4所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 所述
线性分类模型训练时采用如下损失函数:
l(f(x),y)=[1 ‑yf(x)]+
其中, y为x 对应标签;
6.如权利要求4所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 所述
采用FTRL 算法对模型参数进行 更新包括:
对于预处理后的训练样本集中的第t个样本(z(xt),yt), 采用FTRL算法对模型参数w进
行单次更新, 更新 规则公式为:权 利 要 求 书 1/2 页
2
CN 115329084 A
2其中 ,
为 第s 轮的 梯度 ; σs为学 习率 相关 参数 , 满足
ηt为第t轮的学习率; λ1>0为L1正则项的系数; 更新规则公式的第一项用来
近似前t轮的累计误差; 第二项为稳定正则项; 第三项为 L1正则项。
7.如权利要求6所述的基于稀疏线性在线学习的垃圾邮件分类方法, 其特征在于, 求解
更新规则公式时, 将其按维度拆分成2N个 独立的标量 最小化问题:
其中, wi表示模型参数的第i维,
gs,i和ws,i分别表示
第s轮中梯度以及模型参数 的第i维, 解决所述标量最小化问题, 得到各个维度权重更新的
公式:
其中, sgn(x)为符号 函数。
8.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求 1‑8中任意一项 所述方法的
步骤。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现权利要求1 ‑8任意一项所述方法的步骤。
10.基于稀疏线性在线学习的垃圾邮件分类系统, 其特 征在于, 包括:
数据预处理模块, 用于利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射
为高维特 征空间的训练样本, 得到预处 理后的训练样本集;
模型训练模块, 用于利用预处理后的训练样本集训练线性分类模型, 并采用FTRL算法
对模型参数进行 更新, 得到训练后的分类模型;
预测分类模块, 用于利用训练后的线性分类模型对电子邮件进行 预测。权 利 要 求 书 2/2 页
3
CN 115329084 A
3
专利 基于稀疏线性在线学习的垃圾邮件分类方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:30上传分享