iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211228178.2 (22)申请日 2022.10.08 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 陈圣 杨晓勤 于师瑶 高姗 张志佳 张相武 杨涛 郑越 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 张倩 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种垃圾邮件的识别方法、 装置、 存储介质 及设备 (57)摘要 本申请公开了一种垃圾邮件的识别方法、 装 置、 存储介质及设备, 对于从邮件信息库中获取 的每个邮件, 对邮件所示的文本内容进行预处 理, 得到目标分词结果; 从各个关键词 中筛选出 目标关键词并输入至词向量模型中, 得到词向量 模型输出的向量结果; 基于每个目标关键词的词 向量, 生成邮件的特征向量; 对各个邮件的特征 向量进行模糊聚类, 得到聚类中心、 每个邮件与 聚类中心之间的距离; 当邮件与聚类中心之间的 距离大于预设阈值时, 将邮件标识为垃圾邮件, 与现有技术相比, 面对垃圾邮件内容更新速度较 快时, 根据邮件与聚类中心之间的距离判断邮件 是否为垃圾邮件, 解决了因关键词更新不及时未 识别出垃圾邮件的问题, 提升了识别垃圾邮件的 准确度。 权利要求书2页 说明书7页 附图3页 CN 115423044 A 2022.12.02 CN 115423044 A 1.一种垃圾邮件的识别方法, 其特 征在于, 包括: 对于从邮件信息库中获取的每个邮件, 对所述 邮件所示的文本内容进行预处理, 得到 目标分词结果; 所述目标分词结果包括多个关键词; 从各个所述关键词中筛 选出一个或多个目标关键词; 将每个所述目标关键词输入至词向量模型中, 得到所述词向量模型输出的向量结果; 所述向量结果至少包括每 个所述目标关键词的词向量; 基于每个所述目标关键词的词向量, 生成所述邮件的特 征向量; 对各个所述 邮件的特征向量进行模糊聚类, 得到聚类中心, 以及每个所述 邮件与所述 聚类中心之间的距离; 对于每个所述 邮件, 当所述 邮件与所述聚类中心之间的距离大于预设阈值时, 将所述 邮件标识为垃圾邮件, 并向用户发送所述垃圾邮件的提 示信息。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述邮件所示的文本内容进行预处 理, 得到目标分词结果, 包括: 对所述邮件所示的文本内容进行分词处 理, 得到分词结果; 对所述分词结果进行去停用词处 理, 得到目标分词结果。 3.根据权利要求1所述的方法, 其特征在于, 所述从各个所述关键词中筛选出一个或多 个目标关键词, 包括: 按照关键词的出现频率由高到低的顺序, 对各个所述关键词进行排序, 得到关键词序 列; 其中, 所述关键词序列包括各个所述关键词、 各个所述关键词的序位; 从所述关键词序列中选取符合预设条件的一个或多个所述关键词, 标识为目标关键 词; 其中, 所述预设条件为: 所述关键词的序位小于预设序位。 4.根据权利要求1所述的方法, 其特 征在于, 还 包括: 当所述邮件与 所述聚类中心之间的距离不大于所述预设阈值 时, 将所述邮件标识为所 述正常邮件。 5.一种垃圾邮件的识别装置, 其特 征在于, 包括: 获取单元, 用于对于从邮件信息库中获取的每个邮件, 对所述 邮件所示的文本内容进 行预处理, 得到目标分词结果; 所述目标分词结果包括多个关键词; 筛选单元, 用于从各个所述关键词中筛 选出一个或多个目标关键词; 输入单元, 用于将每个所述目标关键词输入至词向量模型中, 得到所述词向量模型输 出的向量结果; 所述向量结果至少包括每 个所述目标关键词的词向量; 生成单元, 用于基于每 个所述目标关键词的词向量, 生成所述邮件的特 征向量; 聚类单元, 用于对各个所述邮件的特征向量进行模糊聚类, 得到聚类 中心, 以及每个所 述邮件与所述聚类中心之间的距离; 标识单元, 用于对于每个所述 邮件, 当所述 邮件与所述聚类中心之间的距离大于预设 阈值时, 将所述邮件标识为垃圾邮件, 并向用户发送所述垃圾邮件的提 示信息。 6.根据权利要求5所述的装置, 其特 征在于, 所述获取 单元具体用于: 对所述邮件所示的文本内容进行分词处 理, 得到分词结果; 对所述分词结果进行去停用词处 理, 得到目标分词结果。 7.根据权利要求5所述的装置, 其特 征在于, 所述筛 选单元具体用于:权 利 要 求 书 1/2 页 2 CN 115423044 A 2按照关键词的出现频率由高到低的顺序, 对各个所述关键词进行排序, 得到关键词序 列; 其中, 所述关键词序列包括各个所述关键词、 各个所述关键词的序位; 从所述关键词序列中选取符合预设条件的一个或多个所述关键词, 标识为目标关键 词; 其中, 所述预设条件为: 所述关键词的序位小于预设序位。 8.根据权利要求5所述的装置, 其特 征在于, 还 包括: 当所述邮件与 所述聚类中心之间的距离不大于所述预设阈值 时, 将所述邮件标识为所 述正常邮件。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的程序, 其中, 所述 程序执行权利要求1 ‑4任一所述的垃圾邮件的识别方法。 10.一种垃圾 邮件的识别设备, 其特征在于, 包括: 处理器、 存储器和总线; 所述处理器 与所述存 储器通过 所述总线连接; 所述存储器用于存储程序, 所述处理器用于运行程序, 其中, 所述程序运行时执行权利 要求1‑4任一所述的垃圾邮件的识别方法。权 利 要 求 书 2/2 页 3 CN 115423044 A 3
专利 一种垃圾邮件的识别方法、装置、存储介质及设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:40
上传分享
举报
下载
原文档
(692.0 KB)
分享
友情链接
DB37-T 5252-2023 《房屋建筑施工扬尘防治技术规程》 山东省.pdf
DB65-T 4529—2022 三相异步电动机节能监测 新疆维吾尔自治区.pdf
SY-T 7305-2021 连续油管作业技术规程.pdf
T-GDNAS 003—2022 ECMO导管维护技术规范.pdf
GB-T 41767-2022 聚合物基复合材料吸湿性能及平衡状态调节试验方法.pdf
数据全生命周期管理办法.pdf
GB-T 31034-2014 晶体硅太阳电池组件用绝缘背板.pdf
T-CESA 1264—2023 非接触式掌纹掌静脉融合识别终端设备 技术要求.pdf
GM-T 0087-2020 浏览器密码应用接口规范.pdf
GB-T 28827.1-2012 信息技术服务 运行维护 第1部分:通用要求.pdf
信通院 筑牢下一代互联网安全防线—IPv6网络安全白皮书.pdf
GB/T 1.2-2020 标准化工作导则 第2部分 以ISO IEC标准化文件为基础的标准化文件起草规则.pdf
T-GDTL 002—2018 建筑地坪涂装工程施工及验收规程.pdf
专利 一种变压器散热器集流管的焊接装置.PDF
NY-T 3223-2018 日光温室设计规范.pdf
GB-Z 28828-2012 信息安全技术 公共及商用服务信息系统个人信息保护指南.pdf
专利 一种温控器在线监测用显示装置.PDF
JGJ-T394-2017 152-2017消防站.pdf
T-ACEF 030—2022 城镇排水系统 厂、站、网一体化 运行监测与智能化管理技术规程.pdf
GB 19079.11-2005 体育场所开放条件与技术要求 第11部分漂流场所.pdf
1
/
13
评价文档
赞助3元 点击下载(692.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。