专利 基于规则和TF-IDF的关键词自动抽取方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210994140.X (22)申请日 2022.08.18 (71)申请人欧冶云商股份有限公司地址 201999 上海市宝山区漠河路6 00弄1 号5层A501-A507室 (72)发明人冯帆　谷凤波　彭巧娟　沈海伦　黄子阳　蔡晓波　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师翁惠瑜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) (54)发明名称基于规则和TF-IDF的关键词自动抽取方法和装置 (57)摘要本发明涉及一种基于规则和TF ‑IDF的关键词自动抽取方法和装置，包括以下步骤：对待处理文件的文件格式进行标准化转换，获得标准化文件；读取所述标准化文件的内容，基于预先构建的白名单对所读取的词语进行词性标注；基于词性标注结果以及预先构建的黑名单对读取的词语进行过滤，获得第一候选关键词；利用规则匹配方式抽取文件的设定候选关键词，加入所述第一候选关键词，形成第二候选关键词；利用TF ‑ IDF算法计算所述第二候选关键词的TF ‑IDF值，按照TF‑IDF值对所述第二候选关键词进行从大到小的排序，输出排名前n位的词语作为最终关键词。与现有技术相比，本发明具有抽取效果好、正确性高等优点。权利要求书1页说明书7页附图1页 CN 115455139 A 2022.12.09 CN 115455139 A 1.一种基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，包括以下步骤：对待处理文件的文件格式进行标准化转换，获得标准化文件；读取所述标准化文件的内容，基于预先构建的白名单对所读取的词语进行词性标注；基于词性标注结果以及预先构建的黑名单对读取的词语进行过滤，获得第一候选关键词；利用规则匹配方式抽取文件的设定候选关键词，加入所述第一候选关键词，形成第二候选关键词；利用TF‑IDF算法计算所述第二候选关键词的TF ‑IDF值，按照TF ‑IDF值对所述第二候选关键词进行从大到小的排序，输出排名前n 位的词语作为最终关键词。 2.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，利用 pypewin32库对所述待处理文件进行标准化转换。 3.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，以所述白名单为jieba自定义词典，利用jieba工具抽取所述标准化文件中的所有词语并进行词性标注。 4.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，所述黑名单包括停用词和人工指定通用词。 5.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，所述待处理文件为管理文件，所述设定候选关键词为制度名。 6.根据权利要求5所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，所述抽取文件的设定候选关键词具体为：抽取文件的制度名；调用预先存储的后缀词清单，剔除所述制度名中存在于所述后缀词清单中的词语，判断剩余制度名是否小于等于8且不包含顿号，若是，则将剩余制度名作为设定候选关键词。 7.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，计算所述第二候选关键词的TF ‑IDF值时，判断当前的第二候选关键词是否存在于所述白名单中，若是，则TF ‑IDF值在原来计算结果的基础上加1。 8.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，以 json语料库动态存储抽取的所述第二候选关键词，该jso n语料库以文件名为索引。 9.根据权利要求1所述的基于规则和TF ‑IDF的关键词自动抽取方法，其特征在于，所述白名单和/或黑名单中的词语动态调整。 10.一种关键词自动抽取装置，其特征在于，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1 ‑9任一所述基于规则和TF ‑IDF的关键词自动抽取方法的指令。权　利　要　求　书 1/1 页 2 CN 115455139 A 2基于规则和TF ‑IDF的关键词自动抽取方法和装置技术领域 [0001]本发明属于语义识别技术领域，涉及一种关键词抽取方法，尤其是涉及一种基于规则和TF ‑IDF的关键词自动抽取方法和装置。背景技术 [0002]伴随着大型企业各个业务领域信息化程度的深化，结构化与非结构化等数据资源越来越丰富，如何便捷、高效地提取与利用这些数据资源成为了信息管理、自动化办公等领域重点关注的议题，数据挖掘技术的应用加速了业务数据信息由信息化向数字化的转变。此外，随着业务的不断增长，目前服务器文件存储较多且办公文件在内部管理中没有强大的搜索引擎作为支持，用户在检索框输入检索词很难找到所需的文件，具体表现在以下几个方面： [0003]1.未检索到或者检索结果与检索字段匹配度较低； [0004]2.文件标引过度依赖人工，造成文件管理人员工作强度加大； [0005]3.后台人员对文件标引生成的词库涉及词库新增与新词发现的过程，而这些过程基本都需要依赖于发布新版本，即以人工拷贝的方式进行词库的更新操作，这种方式费时费力。 [0006]所以，目前的文件检索中存在文件查询困难和词库新增困难，文件的强业务相关性要求文件管理员具有丰富的业务经验与知识储备，一旦文件标引人员因业务能力不足对文件标引缺失或者标引错误或者遗漏标引，原有老系统针对文件关键字字段的检索便无法返回精准的结果给用户。因此，基于当前现状，对文件的标引和检索关键词的优化是一个亟待解决的问题。发明内容 [0007]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种抽取效果好、正确性高的基于规则和TF ‑IDF的关键词自动抽取方法和装置。 [0008]本发明的目的可以通过以下技术方案来实现： [0009]一种基于规则和TF ‑IDF的关键词自动抽取方法，包括以下步骤： [0010]对待处理文件的文件格式进行标准化转换，获得标准化文件； [0011]读取所述标准化文件的内容，基于预先构建的白名单对所读取的词语进行词性标注； [0012]基于词性标注结果以及预先构建的黑名单对读取的词语进行过滤，获得第一候选关键词； [0013]利用规则匹配方式抽取文件的设定候选关键词，加入所述第一候选关键词，形成第二候选关键词； [0014]利用TF‑IDF算法计算所述第二候选关键词的TF ‑IDF值，按照TF ‑IDF值对所述第二候选关键词进行从大到小的排序，输出排名前n 位的词语作为最终关键词。说　明　书 1/7 页 3 CN 115455139 A 3

专利 基于规则和TF-IDF的关键词自动抽取方法和装置

专利基于规则和TF-IDF的关键词自动抽取方法和装置