专利 一种公告文本中抽取数值信息的方法及终端机

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211161206.3 (22)申请日 2022.09.23 (65)同一申请的已公布的文献号申请公布号 CN 115238217 A (43)申请公布日 2022.10.25 (73)专利权人山东省齐鲁大数据研究院地址 250000 山东省济南市高新区舜华路 2000号舜泰广场7号楼7层 (72)发明人赵一宁　朱效民　王新明　王茂励　邹敏　王琪　杨航　 (74)专利代理机构山东舜源联合知识产权代理有限公司 373 59 专利代理师张亮 (51)Int.Cl. G06F 16/958(2019.01)G06F 16/951(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 112699665 A,2021.04.23 审查员张改红 (54)发明名称一种公告文本中抽取数值信息的方法及终端机 (57)摘要本发明提供一种公告文本中抽取数值信息的方法及终端机，涉及自然语言处理技术的数据识别技术领域，基于爬虫工具对设定的新闻公告网页进行模拟加载，以获取网页中的内容；遍历新闻公告网页内容中的所有句子，依据预设规则判断所获得的网页内容中相邻句子是否需要拼接；提取具有数值信息的有效句子，基于预设抽取算法对有效句子中的数值信息进行抽取，形成数值关系元组；提取处理完毕的数值关系元组，以列表的形式存储在内存中，并通过预设形式将数值关系元组进行展示。本发明可以从大规模的非结构化公告文本中抽取出粒度更小的数值关系，满足用户更深层次和更细粒度的信息需求。权利要求书2页说明书13页附图2页 CN 115238217 B 2022.12.20 CN 115238217 B 1.一种对公告文本中数值信息的提取方法，其特征在于，方法包括：步骤一、基于爬虫工具对设定的新闻公告网页进行模拟加载，以获取网页中的内容；步骤二、遍历新闻公告网页内容中的所有句子，依据预设规则判断所获得的网页内容中相邻句子是否需要拼接；如需要拼接，则对需拼接的两相邻句子执行拼接操作，以获得公告文本；步骤三、提取具有数值信息的有效句子，基于预设抽取算法对有效句子中的数值信息进行抽取，形成数值关系元组；抽取方式包括：步骤（1）：基于词性标注的结果，使用动词和动词加名词后的组合词作为中心，选择向左或向右不超过两个实体距离的实体对，进行组合形成一个候选关系三元组；步骤（2）：对于在上一步中抽取得到的候选关系三元组，提取每个关系三元组中的关系指示词并统计其出现的次数，根据关系指示词出现次数生成排序函数，设置阈值过滤掉关系指示词排名大于阈值的候选关系三元组；步骤（3）：根据关系指示词和实体对之间的相对位置，关系指示词在句子中出现的位置有三种可能，即关系指示词位于实体对之间、位于实体对的右侧和位于实体对的左侧，根据公告文本表达特征，过滤掉候选关系三元组中的噪声；步骤（4）：基于语义角色标注的结果，分析句子中各成分与谓词之间的关系，定义了三种关系类型A0、 A1、 A2来扩展关系三元组，若A0和A1与同一个谓词有语义关系，直接获取主谓宾三元组[A0,Pred1,A1]；同理，若A1和A 2与同一个谓词有语义关系，抽取关系三元组[A1,Pred2,A 2]；步骤（5）：基于词性标注和句法解析的结果，定义了四种类型的句法特征来扩展关系三元组；步骤四、提取处理完毕的数值关系元组，以列表的形式存储在内存中，并通过预设形式将数值关系元组进行展示。 2.根据权利要求1所述的对公告文本中数值信息的提取方法，其特征在于，步骤一还包括：通过添加适当的请求头对爬虫程序进行伪装；利用selen ium的webdrive解析网页，并设置等待时间，等待网页的所有元素加载完成；获取网页源代码，并根据xpath表达式提取与其相对应html元素的内容；提取的内容包括网页正文，所述网页正文由网页内所有文本标签的内容拼接而成。 3.根据权利要求1所述的对公告文本中数值信息的提取方法，其特征在于，步骤二还包括：以标点符号为依据来判断是否对前后相邻的句子拼接，具体包括以下情况：若句末的字符包括如下任一符号时，将句子与其相邻的后句进行拼接；任一标点符号包括：逗号、冒号、引号中的左半引号、括号中的左半括号以及书名号中的左半书名号；还包括如下任一文字:和、并以及含；若句首的字符包括如下任一标点符号：逗号、冒号、分号、引号中的后半引号、感叹号、句号、百分号、括号、书名号、顿号、问号以及&时，则将句子与其相邻的前句进行拼接；若句中存在若干标点符号对，且标点符号对的左半边数量大于右半边数量时，则将句子与其相邻的后句进行拼接；权　利　要　求　书 1/2 页 2 CN 115238217 B 2若句中存在若干标点符号对，且标点符号对的左半边数量少于右半边数量时，则将句子与其相邻的前句进行拼接；若句中存在一组标点符号对，且标点符号对的朝向相反，则将句子与其相邻的前后句拼接；句子拼接完成后，将所获得的公告文本依据长句分隔符进行分割，分割成为若干个句子的集合。 4.根据权利要求3所述的对公告文本中数值信息的提取方法，其特征在于，通过预设语言模型对集合中句子的分词、词性标注、句法解析、语义角色标注和命名实体进行识别；以句子为单位进行数值抽取。 5.根据权利要求1所述的对公告文本中数值信息的提取方法，其特征在于，步骤三中的提取具有数值信息的有效句子包括：（I）句中存在数量词；（II）句中含有自定义的数值关系触发词；若输入的句子被识别为上述情形（I），则保留数量词所在句子，继而将所有句子一次输入数值关系抽取体系，识别其中的数值主体、数值及其之间关系；当输入句子被判定不属于情形（I）时，判断是否为情形（I I）；若符合情形（I I），则保留触发词所在句子，从句子中识别并获取数值信息。 6.根据权利要求5所述的对公告文本中数值信息的提取方法，其特征在于，若数值信息为空值，即无法从句子中获得数值关系，所述句子不属于有效句子；若不为空值，则将所述句子识别为有效句子，并存储该句子、数值主体、数值及其之间关系。 7.根据权利要求1所述的对公告文本中数值信息的提取方法，其特征在于，步骤四使用Pytho n Excel操作模块XlsxWriter进行数据输出；具体包括：【1】导入提取完毕的数值关系元组列表；【2】通过xlsxwrit er.Workbook函数新建excel表， workbook.add_worksheet函数新建 sheet；【3】自定义表头并写入到excel表中；【4】通过worksheet.write_row函数将数值关系元组写入到excel表的行中，并进行展示。 8.一种实现对公告文本中数值信息的提取方法的终端机，其特征在于，包括：存储器，用于存储计算机程序及对公告文本中数值信息的提取方法；处理器，用于执行所述计算机程序及对公告文本中数值信息的提取方法，以实现如权利要求1至7任意一项所述对公告文本中数值信息的提取方法的步骤。权　利　要　求　书 2/2 页 3 CN 115238217 B 3

专利 一种公告文本中抽取数值信息的方法及终端机

专利一种公告文本中抽取数值信息的方法及终端机