iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211161206.3 (22)申请日 2022.09.23 (65)同一申请的已公布的文献号 申请公布号 CN 115238217 A (43)申请公布日 2022.10.25 (73)专利权人 山东省齐鲁大数据研究院 地址 250000 山东省济南市高新区舜华路 2000号舜泰广场7号楼7层 (72)发明人 赵一宁 朱效民 王新明 王茂励  邹敏 王琪 杨航  (74)专利代理 机构 山东舜源联合知识产权代理 有限公司 373 59 专利代理师 张亮 (51)Int.Cl. G06F 16/958(2019.01)G06F 16/951(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 112699665 A,2021.04.23 审查员 张改红 (54)发明名称 一种公告文本中抽取数值信息的方法及终 端机 (57)摘要 本发明提供一种公告文本中抽取数值信息 的方法及终端机, 涉及自然语言处理技术的数据 识别技术领域, 基于爬虫工具对设定的新闻公告 网页进行模拟加载, 以获取网页中的内容; 遍历 新闻公告网页内容中的所有句子, 依据预设规则 判断所获得的网页内容中相邻句子是否需要拼 接; 提取具有数值信息的有效句子, 基于预设抽 取算法对有效句子中的数值信息进行抽取, 形成 数值关系元组; 提取处理完毕的数值关系元组, 以列表的形式存储在内存中, 并通过预设形式将 数值关系元 组进行展示。 本发明可以从大规模的 非结构化公告文本中抽取出粒度更小的数值关 系, 满足用户更深层次和更细粒度的信息需求。 权利要求书2页 说明书13页 附图2页 CN 115238217 B 2022.12.20 CN 115238217 B 1.一种对公告 文本中数值信息的提取 方法, 其特 征在于, 方法包括: 步骤一、 基于 爬虫工具对设定的新闻公告网页进行模拟加载, 以获取网页中的内容; 步骤二、 遍历新闻公告网页内容中的所有句子, 依据预设规则判断所获得的网页内容 中相邻句子是否需要拼接; 如需要拼接, 则对需拼接的两相邻句子执 行拼接操作, 以获得公告 文本; 步骤三、 提取具有数值信息的有效句子, 基于预设抽取算法对有效句子中的数值信息 进行抽取, 形成数值关系元组; 抽取方式包括: 步骤 (1) : 基于词性标注的结果, 使用动词和动词加名词后的组合词作为中心, 选择向 左或向右不超过两个实体距离的实体对, 进行组合形成一个候选关系三元组; 步骤 (2) : 对于在上一步中抽取得到的候选关系三元组, 提取每个关系三元组中的关系 指示词并统计其出现的次数, 根据关系指示词出现次数生成排序函数, 设置阈值过滤掉关 系指示词排名大于阈值的候选关系三元组; 步骤 (3) : 根据关系指示词和实体对之间的相对位置, 关系指示词在句子中出现的位置 有三种可能, 即关系指示词位于实体对之间、 位于实体对的右侧和位于实体对的左侧, 根据 公告文本表达特 征, 过滤掉候选关系三元组中的噪声; 步骤 (4) : 基于语义角色标注的结果, 分析句子中各成分与谓词之间的关系, 定义了三 种关系类型A0、 A1、 A2来扩展关系 三元组, 若A0和A1与同一个谓词有语义关系, 直接获取主 谓宾三元组[A0,Pred1,A1]; 同理, 若A1和A 2与同一个谓词有语义关系, 抽取关系三元组[A1,Pred2,A 2]; 步骤 (5) : 基于词性标注和句法解析的结果, 定义了四种类型的句法特征来扩展关系三 元组; 步骤四、 提取处理完毕的数值关系元组, 以列表的形式存储在内存中, 并通过预设形式 将数值关系元组进行展示。 2.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 步骤一还 包括: 通过 添加适当的请求头对爬虫程序进行伪装; 利用selen ium的webdrive解析网页, 并设置等待时间, 等待网页的所有元 素加载完成; 获取网页源代码, 并根据xpath表达式提取与其相对应html元 素的内容; 提取的内容包括网页正文, 所述网页正文由网页内所有 文本标签的内容 拼接而成。 3.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 步骤二还 包括: 以标点符号 为依据来判断是否对前后相邻的句子拼接, 具体包括以下情况: 若句末的字符包括如下任一符号时, 将句子与其相邻的后句进行拼接; 任一标点符号包括: 逗号、 冒号、 引号中的左半引号、 括号中的左半括号以及书名号中 的左半书名号; 还 包括如下任一文字:和、 并以及含; 若句首的字符包括如下任一标点符号: 逗号、 冒号、 分号、 引号中的后半引号、 感叹号、 句号、 百分号、 括 号、 书名号、 顿号、 问号以及&时, 则将句子与其相邻的前句进行拼接; 若句中存在若干标点符号对, 且标点符号对的左半边数量大于右半边数量时, 则将句 子与其相邻的后句进行拼接;权 利 要 求 书 1/2 页 2 CN 115238217 B 2若句中存在若干标点符号对, 且标点符号对的左半边数量少于右半边数量时, 则将句 子与其相邻的前句进行拼接; 若句中存在一组标点符号对, 且标点符号对的朝向相反, 则将句子与其相邻的前后句 拼接; 句子拼接完成后, 将所获得的公告文本依据长句分隔符进行分割, 分割成为若干个句 子的集合。 4.根据权利要求3所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 通过预设语言模型对集合中句子的分词、 词性标注、 句法解析、 语义角色标注和命名实 体进行识别; 以句子为单位进行 数值抽取。 5.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 步骤三中的提取 具有数值信息的有效句子包括: (I) 句中存在数量词; (II) 句中含有自定义的数值关系触发词; 若输入的句子被识别为上述情形 (I) , 则保留数量词所在句子, 继而将所有句子一 次输 入数值关系抽取体系, 识别其中的数值主体、 数值及其之间关系; 当输入句子被判定不属于情形 (I) 时, 判断是否为情形 (I I) ; 若符合情形 (I I) , 则保留触发词所在句子, 从句子中识别并获取 数值信息 。 6.根据权利要求5所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 若数值信息为空值, 即无法从句子中获得 数值关系, 所述句子不属于有效句子; 若不为空值, 则将所述句子识别为有效句子, 并存储该句子、 数值主体、 数值及其之间 关系。 7.根据权利要求1所述的对公告 文本中数值信息的提取 方法, 其特 征在于, 步骤四使用Pytho n Excel操作模块XlsxWriter进行 数据输出; 具体包括: 【1】 导入提取完毕的数值关系元组列表; 【2】 通过xlsxwrit er.Workbook函数新建excel表,  workbook.add_worksheet函数新建 sheet; 【3】 自定义表头并写入到excel表中; 【4】 通过worksheet.write_row函数将数值关系元组写入到excel表的行中, 并进行展 示。 8.一种实现对公告 文本中数值信息的提取 方法的终端机, 其特 征在于, 包括: 存储器, 用于存 储计算机程序及对公告 文本中数值信息的提取 方法; 处理器, 用于执行所述计算机程序及对公告文本中数值信息的提取方法, 以实现如权 利要求1至7任意 一项所述对公告 文本中数值信息的提取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115238217 B 3

PDF文档 专利 一种公告文本中抽取数值信息的方法及终端机

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种公告文本中抽取数值信息的方法及终端机 第 1 页 专利 一种公告文本中抽取数值信息的方法及终端机 第 2 页 专利 一种公告文本中抽取数值信息的方法及终端机 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。