(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211161206.3
(22)申请日 2022.09.23
(65)同一申请的已公布的文献号
申请公布号 CN 115238217 A
(43)申请公布日 2022.10.25
(73)专利权人 山东省齐鲁大数据研究院
地址 250000 山东省济南市高新区舜华路
2000号舜泰广场7号楼7层
(72)发明人 赵一宁 朱效民 王新明 王茂励
邹敏 王琪 杨航
(74)专利代理 机构 山东舜源联合知识产权代理
有限公司 373 59
专利代理师 张亮
(51)Int.Cl.
G06F 16/958(2019.01)G06F 16/951(2019.01)
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(56)对比文件
CN 112699665 A,2021.04.23
审查员 张改红
(54)发明名称
一种公告文本中抽取数值信息的方法及终
端机
(57)摘要
本发明提供一种公告文本中抽取数值信息
的方法及终端机, 涉及自然语言处理技术的数据
识别技术领域, 基于爬虫工具对设定的新闻公告
网页进行模拟加载, 以获取网页中的内容; 遍历
新闻公告网页内容中的所有句子, 依据预设规则
判断所获得的网页内容中相邻句子是否需要拼
接; 提取具有数值信息的有效句子, 基于预设抽
取算法对有效句子中的数值信息进行抽取, 形成
数值关系元组; 提取处理完毕的数值关系元组,
以列表的形式存储在内存中, 并通过预设形式将
数值关系元 组进行展示。 本发明可以从大规模的
非结构化公告文本中抽取出粒度更小的数值关
系, 满足用户更深层次和更细粒度的信息需求。
权利要求书2页 说明书13页 附图2页
CN 115238217 B
2022.12.20
CN 115238217 B
1.一种对公告 文本中数值信息的提取 方法, 其特 征在于, 方法包括:
步骤一、 基于 爬虫工具对设定的新闻公告网页进行模拟加载, 以获取网页中的内容;
步骤二、 遍历新闻公告网页内容中的所有句子, 依据预设规则判断所获得的网页内容
中相邻句子是否需要拼接;
如需要拼接, 则对需拼接的两相邻句子执 行拼接操作, 以获得公告 文本;
步骤三、 提取具有数值信息的有效句子, 基于预设抽取算法对有效句子中的数值信息
进行抽取, 形成数值关系元组;
抽取方式包括:
步骤 (1) : 基于词性标注的结果, 使用动词和动词加名词后的组合词作为中心, 选择向
左或向右不超过两个实体距离的实体对, 进行组合形成一个候选关系三元组;
步骤 (2) : 对于在上一步中抽取得到的候选关系三元组, 提取每个关系三元组中的关系
指示词并统计其出现的次数, 根据关系指示词出现次数生成排序函数, 设置阈值过滤掉关
系指示词排名大于阈值的候选关系三元组;
步骤 (3) : 根据关系指示词和实体对之间的相对位置, 关系指示词在句子中出现的位置
有三种可能, 即关系指示词位于实体对之间、 位于实体对的右侧和位于实体对的左侧, 根据
公告文本表达特 征, 过滤掉候选关系三元组中的噪声;
步骤 (4) : 基于语义角色标注的结果, 分析句子中各成分与谓词之间的关系, 定义了三
种关系类型A0、 A1、 A2来扩展关系 三元组, 若A0和A1与同一个谓词有语义关系, 直接获取主
谓宾三元组[A0,Pred1,A1];
同理, 若A1和A 2与同一个谓词有语义关系, 抽取关系三元组[A1,Pred2,A 2];
步骤 (5) : 基于词性标注和句法解析的结果, 定义了四种类型的句法特征来扩展关系三
元组;
步骤四、 提取处理完毕的数值关系元组, 以列表的形式存储在内存中, 并通过预设形式
将数值关系元组进行展示。
2.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
步骤一还 包括: 通过 添加适当的请求头对爬虫程序进行伪装;
利用selen ium的webdrive解析网页, 并设置等待时间, 等待网页的所有元 素加载完成;
获取网页源代码, 并根据xpath表达式提取与其相对应html元 素的内容;
提取的内容包括网页正文, 所述网页正文由网页内所有 文本标签的内容 拼接而成。
3.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
步骤二还 包括:
以标点符号 为依据来判断是否对前后相邻的句子拼接, 具体包括以下情况:
若句末的字符包括如下任一符号时, 将句子与其相邻的后句进行拼接;
任一标点符号包括: 逗号、 冒号、 引号中的左半引号、 括号中的左半括号以及书名号中
的左半书名号; 还 包括如下任一文字:和、 并以及含;
若句首的字符包括如下任一标点符号: 逗号、 冒号、 分号、 引号中的后半引号、 感叹号、
句号、 百分号、 括 号、 书名号、 顿号、 问号以及&时, 则将句子与其相邻的前句进行拼接;
若句中存在若干标点符号对, 且标点符号对的左半边数量大于右半边数量时, 则将句
子与其相邻的后句进行拼接;权 利 要 求 书 1/2 页
2
CN 115238217 B
2若句中存在若干标点符号对, 且标点符号对的左半边数量少于右半边数量时, 则将句
子与其相邻的前句进行拼接;
若句中存在一组标点符号对, 且标点符号对的朝向相反, 则将句子与其相邻的前后句
拼接;
句子拼接完成后, 将所获得的公告文本依据长句分隔符进行分割, 分割成为若干个句
子的集合。
4.根据权利要求3所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
通过预设语言模型对集合中句子的分词、 词性标注、 句法解析、 语义角色标注和命名实
体进行识别;
以句子为单位进行 数值抽取。
5.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
步骤三中的提取 具有数值信息的有效句子包括:
(I) 句中存在数量词;
(II) 句中含有自定义的数值关系触发词;
若输入的句子被识别为上述情形 (I) , 则保留数量词所在句子, 继而将所有句子一 次输
入数值关系抽取体系, 识别其中的数值主体、 数值及其之间关系;
当输入句子被判定不属于情形 (I) 时, 判断是否为情形 (I I) ;
若符合情形 (I I) , 则保留触发词所在句子, 从句子中识别并获取 数值信息 。
6.根据权利要求5所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
若数值信息为空值, 即无法从句子中获得 数值关系, 所述句子不属于有效句子;
若不为空值, 则将所述句子识别为有效句子, 并存储该句子、 数值主体、 数值及其之间
关系。
7.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于,
步骤四使用Pytho n Excel操作模块XlsxWriter进行 数据输出;
具体包括:
【1】 导入提取完毕的数值关系元组列表;
【2】 通过xlsxwrit er.Workbook函数新建excel表, workbook.add_worksheet函数新建
sheet;
【3】 自定义表头并写入到excel表中;
【4】 通过worksheet.write_row函数将数值关系元组写入到excel表的行中, 并进行展
示。
8.一种实现对公告 文本中数值信息的提取 方法的终端机, 其特 征在于, 包括:
存储器, 用于存 储计算机程序及对公告 文本中数值信息的提取 方法;
处理器, 用于执行所述计算机程序及对公告文本中数值信息的提取方法, 以实现如权
利要求1至7任意 一项所述对公告 文本中数值信息的提取 方法的步骤。权 利 要 求 书 2/2 页
3
CN 115238217 B
3
专利 一种公告文本中抽取数值信息的方法及终端机
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:45上传分享