iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211208768.9 (22)申请日 2022.09.30 (71)申请人 招商局金融科技有限公司 地址 518000 广东省深圳市福田区华 富街 道皇岗路5001号深业上城(南区)二期 35层、 36层 (72)发明人 刘伟光 张瑞 熊一龙  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文章关键词筛选类别的方法、 装置、 设 备及存储介质 (57)摘要 本发明涉及智能决策技术, 揭露了一种文章 关键词筛选类别的方法, 包括: 获取待分类文本, 对所述待分类文本进行预处理, 得到目标文本; 识别所述目标文本的文本分类因素, 查询所述文 本分类因素中每个 分类因素的文本数据, 对所述 文本数据进行分词处理, 得到文本词语; 提取所 述文本词语的文本关键词, 计算所述文本关键词 在所述文本分类因素中的归属度, 并计算所述文 本关键词在所述目标文本中的权重; 根据所述归 属度和所述权重计算出所述文本关键词的支持 度, 选取所述支持度符合预设条件的文本关键词 作为目标关键词, 并识别所述目标关键词的词语 类别, 将所述词语类别作为所述待分类文本的文 本类别。 本发 明在于提高文章关键词分类的准确 性。 权利要求书2页 说明书9页 附图2页 CN 115525761 A 2022.12.27 CN 115525761 A 1.一种文章关键词筛 选类别的方法, 其特 征在于, 所述方法包括: 获取待分类文本, 对所述待分类文本进行 预处理, 得到目标文本; 识别所述目标文本的文本分类因素, 查询所述文本分类因素中每个分类因素的文本数 据, 对所述文本数据进行分词处 理, 得到文本词语; 提取所述文本词语的文本关键词, 计算所述文本关键词在所述文本分类因素中的归属 度, 并计算所述文本关键词在所述目标文本中的权 重; 根据所述归属度和所述权重计算出所述文本关键词的支持度, 选取所述支持度符合预 设条件的文本关键词作为 目标关键词, 并识别所述 目标关键词的词语类别, 将所述词语类 别作为所述待分类文本的文本类别。 2.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述对所述待分类文 本进行预处理, 得到目标文本, 包括: 识别所述待分类文本中的非文本内容; 若所述待分类文本中无所述非文本内容, 则对所述待分类文本进行转化, 得到目标文 本; 若所述待分类文本中有所述非文本内容, 则识别所述非文本内容文本区域; 对所述文本区域进行字符提取, 得到 字符序列; 将所述字符序列转换成字符文本, 结合所述字符文本与所述待分类文本, 得到目标文 本。 3.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述对所述文本数据 进行分词处 理, 得到文本词语, 包括: 对所述文本数据进行去重处 理, 得到去重文本; 对所述去重文本进行 过滤处理, 得到过 滤文本; 按照预设的词语对照表对所述过 滤文本进行 标注, 得到标注文本; 对所述标注数据进行分词处 理, 得到文本词语。 4.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述提取所述文本词 语的文本关键词, 包括: 对所述文本数据进行语义分析, 得到文本语义; 对所述文本词语进行语义分析, 得到词语 语义; 计算所述文本语义与所述词语 语义的匹配度; 在所述匹配度 大于预设值 时, 将所述匹配度对应的所述文本词语作为所述文本数据的 文本关键词, 并提取 所述文本关键词。 5.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述计算所述文本关 键词在所述文本分类因素中的归属度, 包括: 计算所述文本关键词在所述文本分类因素中的权 重值; 获取所述文本关键词在所述文本分类因素中出现的频次; 根据所述权 重值和所述频次计算所述文本关键词在所述文本分类因素中的归属度。 6.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述并计算所述文本 关键词在所述目标文本中的权 重, 包括: 计算所述文本关键词在所述目标文本中的词频;权 利 要 求 书 1/2 页 2 CN 115525761 A 2计算所述文本关键词在所述目标文本中的逆向文件频率; 根据所述频率和所述逆向文件频率计算出 所述文本关键词的权 重。 7.如权利要求1所述的文章关键词筛选类别的方法, 其特征在于, 所述根据所述归属度 和所述权 重计算出 所述文本关键词的支持度, 包括: 计算所述文本关键词在所述文本分类因素中的所占分值, 将所述所占分值相加求和, 得到所述文本关键词的匹配得分, 将所述匹配得分转化成数值, 将所述数值与所述归属度 和所述权 重分别相乘并求和, 得到所述文本关键词的支持度。 8.一种文章关键词筛 选类别的装置, 其特 征在于, 所述装置包括: 文本处理模块, 用于获取待分类文本, 对所述待分类文本进行 预处理, 得到目标文本; 文本分词模块, 用于识别所述目标文本的文本分类因素, 查询所述文本分类因素中每 个分类因素的文本数据, 对所述文本数据进行分词处 理, 得到文本词语; 权重计算模块, 用于提取所述文本词语的文本关键词, 计算所述文本关键词在所述文 本分类因素中的归属度, 并计算所述文本关键词在所述目标文本中的权 重; 文本分类模块, 用于根据所述归属度和所述权重计算出所述文本关键词的支持度, 选 取所述支持度符合预设条件的文本 关键词作为目标关键词, 并识别所述目标关键词的词语 类别, 将所述词语 类别作为所述待分类文本的文本类别。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所 述的文章关键词筛 选类别的方法。 10.一种存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处理器执行时 实现如权利要求1至7中任意 一项所述的文章关键词筛 选类别的方法。权 利 要 求 书 2/2 页 3 CN 115525761 A 3

PDF文档 专利 一种文章关键词筛选类别的方法、装置、设备及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文章关键词筛选类别的方法、装置、设备及存储介质 第 1 页 专利 一种文章关键词筛选类别的方法、装置、设备及存储介质 第 2 页 专利 一种文章关键词筛选类别的方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。