iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210994140.X (22)申请日 2022.08.18 (71)申请人 欧冶云商股份有限公司 地址 201999 上海市宝山区漠河路6 00弄1 号5层A501-A507室 (72)发明人 冯帆 谷凤波 彭巧娟 沈海伦  黄子阳 蔡晓波  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 翁惠瑜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) (54)发明名称 基于规则和TF-IDF的关键词自动抽取方法 和装置 (57)摘要 本发明涉及一种基于规则和TF ‑IDF的关键 词自动抽取方法和装置, 包括以下步骤: 对待处 理文件的文件格式进行标准化转换, 获得标准化 文件; 读取所述标准化文件的内容, 基于预先构 建的白名单对 所读取的词语进行词性标注; 基于 词性标注结果 以及预先构建的黑名单对读取的 词语进行过滤, 获得第一候选关键词; 利用规则 匹配方式抽取文件的设定候选关键词, 加入所述 第一候选关键词, 形成第二候选关键词; 利用TF ‑ IDF算法计算所述第二候选关键词的TF ‑IDF值, 按照TF‑IDF值对所述第二候选关键词进行从大 到小的排序, 输出排名前n位的词语作为最终关 键词。 与现有 技术相比, 本发明具有抽取效果好、 正确性高等优点。 权利要求书1页 说明书7页 附图1页 CN 115455139 A 2022.12.09 CN 115455139 A 1.一种基于规则和TF ‑IDF的关键词自动抽取 方法, 其特 征在于, 包括以下步骤: 对待处理文件的文件格式进行 标准化转换, 获得 标准化文件; 读取所述标准 化文件的内容, 基于预 先构建的白名单对所读取的词语进行词性标注; 基于词性标注结果以及预先构建的黑名单对读取的词语进行过滤, 获得第 一候选关键 词; 利用规则匹配方式抽取文件的设定候选关键词, 加入所述第一候选关键词, 形成第二 候选关键词; 利用TF‑IDF算法计算所述第二候选关键词的TF ‑IDF值, 按照TF ‑IDF值对所述第二候选 关键词进行从大到小的排序, 输出排名前n 位的词语作为 最终关键词。 2.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 利用 pypewin32库对所述待处 理文件进行 标准化转换。 3.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 以所 述白名单为jieba自定义词典, 利用jieba工具抽取所述标准化文件中的所有词语并进行词 性标注。 4.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 所述 黑名单包括停用词和人工指定通用词。 5.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 所述 待处理文件为管理文件, 所述设定候选关键词为制度名。 6.根据权利 要求5所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 所述 抽取文件的设定候选关键词具体为: 抽取文件的制度名; 调用预先存储的后缀词清单, 剔除所述制度名中存在于所述后缀词清单中的词语, 判 断剩余制度名是否小于等于8且不包 含顿号, 若是, 则将剩余制度名作为设定候选关键词。 7.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 计算 所述第二候选关键词的TF ‑IDF值时, 判断当前的第二候选关键词是否存在于所述白名单 中, 若是, 则TF ‑IDF值在原来计算结果的基础上加1。 8.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 以 json语料库动态存 储抽取的所述第二 候选关键词, 该jso n语料库以文件名为索引。 9.根据权利 要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法, 其特征在于, 所述 白名单和/或黑名单中的词语动态调整。 10.一种关键词自动抽取装置, 其特征在于, 包括一个或多个处理器、 存储器和被存储 在存储器中的一个或多个程序, 所述一个或多个程序包括用于执行如权利要求1 ‑9任一所 述基于规则和TF ‑IDF的关键词自动抽取 方法的指令 。权 利 要 求 书 1/1 页 2 CN 115455139 A 2基于规则和TF ‑IDF的关键词自动抽取方 法和装置 技术领域 [0001]本发明属于语义识别技术领域, 涉及一种关键词抽 取方法, 尤其是涉及一种基于 规则和TF ‑IDF的关键词自动抽取 方法和装置 。 背景技术 [0002]伴随着大型企业各个业务领域信息化程度的深化, 结构化与非结构化等数据资源 越来越丰富, 如何便捷、 高效地提取与利用这些数据资源成为了信息管理、 自动化办公等领 域重点关注的议题, 数据挖掘技术的应用加速了业务数据信息由信息化向数字化的转变。 此外, 随着业务的不断增长, 目前服务器文件存储较多且办公文件在内部管理中没有强大 的搜索引擎作为支持, 用户在检索框输入检索词很难找到所需的文件, 具体表现在以下几 个方面: [0003]1.未检索到或者检索结果与检索字段匹配度较低; [0004]2.文件标引过度依赖人工, 造成文件管理人员工作强度加大; [0005]3.后台人员对文件标引生成的词库涉及词库新增与新词发现的过程, 而这些过程 基本都需要依赖于发布新版本, 即以人工拷贝的方式进行词库的更新操作, 这种 方式费时 费力。 [0006]所以, 目前的文件检索中存在文件查询困难和词库新增困难, 文件的强业务相关 性要求文件管理员具有丰富的业务经验与知识储备, 一旦文件标引人员因业务能力不足对 文件标引缺 失或者标引错误或者遗漏标引, 原有老系统针对文件关键字字段的检索便无法 返回精准的结果给用户。 因此, 基于当前现状, 对文件的标引和检索关键词的优化是一个亟 待解决的问题。 发明内容 [0007]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种抽取效果好、 正 确性高的基于规则和TF ‑IDF的关键词自动抽取 方法和装置 。 [0008]本发明的目的可以通过以下技 术方案来实现: [0009]一种基于规则和TF ‑IDF的关键词自动抽取 方法, 包括以下步骤: [0010]对待处理文件的文件格式进行 标准化转换, 获得 标准化文件; [0011]读取所述标准化文件的内容, 基于预先构建的白名单对所读 取的词语进行词性标 注; [0012]基于词性标注结果以及预先构建的黑名单对读取的词语进行过滤, 获得第一候选 关键词; [0013]利用规则匹配方式抽 取文件的设定候选关键词, 加入所述第一候选关键词, 形成 第二候选关键词; [0014]利用TF‑IDF算法计算所述第二候选关键词的TF ‑IDF值, 按照TF ‑IDF值对所述第二 候选关键词进行从大到小的排序, 输出排名前n 位的词语作为 最终关键词。说 明 书 1/7 页 3 CN 115455139 A 3

.PDF文档 专利 基于规则和TF-IDF的关键词自动抽取方法和装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于规则和TF-IDF的关键词自动抽取方法和装置 第 1 页 专利 基于规则和TF-IDF的关键词自动抽取方法和装置 第 2 页 专利 基于规则和TF-IDF的关键词自动抽取方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。