iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221089640 0.X (22)申请日 2022.07.28 (71)申请人 四川大学 地址 610065 四川省成 都市武侯区一环路 南一段24号 (72)发明人 陈兴蜀 杨敏 谭柳燕 兰晓 罗永刚 (74)专利代理 机构 成都禾创知家知识产权代理 有限公司 51284 专利代理师 刘凯 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06V 10/764(2022.01) (54)发明名称 一种基于信息抽取的数据分类分级领域知 识库构建方法 (57)摘要 本发明公开了一种基于信息抽取的数据分 类分级领域知识库构建方法, 涉及自然语言处理 技术领域。 本发明包括文档的获取步骤、 文档预 处理步骤、 文本数据抽取步骤、 表格信息抽取步 骤、 数据分类 分级元组抽取步骤和数据分类分级 领域知识库构建步骤。 本发明提出了一种政策法 规自动解析框架, 并将分类分级信息构建为领域 知识库, 充分发挥政策法规对数据分类 分级的指 导作用, 可以有效地弥合国家层面的数据保护关 切与组织的具体对策之间的差距, 该框架后续可 以开展更多的研究。 权利要求书3页 说明书10页 附图3页 CN 115292450 A 2022.11.04 CN 115292450 A 1.一种基于信息抽取的数据分类分级领域知识库构建方法, 其特征在于, 本方法包括 以下步骤: S1、 文档的获取步骤, 以关键词检索的方式, 在目标网站或目标数据库中找到目标文 档, 并汇总形成语料库; S2、 文档预处 理步骤, 将S1步骤中获取 得到的目标文档分离成纯文本和表格两大类; S3、 文本数据抽取步骤, 构建一个语义嵌入的朴素贝叶斯分类器, 通过构建的朴素贝叶 斯分类器对S2步骤中分离得到的纯文本进行分类, 生成数据分类分级句子标签; S4、 表格信息抽取步骤, 根据S2步骤分离得到的语料库中的表格中表格特征和 感兴趣 的信息, 对合并的单元格进 行拆分, 根据拆分前的单元格文本对空单元格进行补充, 然后基 于模式匹配提取信息; S5、 数据分类分级元组抽取步骤, 利用结合模式匹配与自然语言处理技术相结合的方 式, 在识别出的分类分级句子标签的基础上, 抽取分类分级 元素, 实现信息类型及其关系的 联合抽取; S6、 数据分类分级领域知识库构建步骤, 经过纯文本和表格抽取, 得到了数据分类分级 元组, 经过语义相似度计算公式, 按照高低去重、 融合从而完成分类分级领域知识库构建。 2.如权利要求1所述的一种基于信息抽取的数据分类分级领域知识库构建方法, 其特 征在于, 所述S2步骤具体包括以下子步骤: S201、 删除目标文档中的无关内容; S202、 格式转换, 若目标文档为PDF格式, 则将PDF格式文件统一转换为word格式文件, 然后利用pytho n‑docx库分离文本和表格; S203、 利用语言处理平台LTP将纯文本分割成句子; 其中, 将文本的中列表的层次关系 保存为二元组, 即文本的行号及其直接父节点, 以确保句 子语义完整的同时具有简单 的结 构; S204、 利用中文分词工具对文本中所有句子进行分词, 形成一个分词短语列表; 然后适 用停止词列表cn_stopw ords, 去除虚词、 助词和一般性词。 3.如权利要求2所述的一种基于信息抽取的数据分类分级领域知识库构建方法, 其特 征在于, 所述S3步骤具体包括以下子步骤: S301、 调用Python Sklearn库的接口, 为分词短语列表中 的每个单词生成TF ‑IDF向量; 同时, 采用卡方统计量进一步筛选出一些冗余特征; 输出特征工程向量表示为 fe(si), si表 示一个句子; S302、 使用加权Word2vec生成特点于语料库的词 嵌入向量, 给每个词 嵌入向量赋予权 重, 同时引入额外的语义特 征, 加权词嵌入向量表示 为 其中, w2v()表示使用Wor d2vec词嵌入方法, M表示 句子中包含的总的单词数量, tj表示句子中的一个词, w(tj)表示为词tj的词频‑逆文档频率 权重; S303、 将S301步骤和S302步骤输出的特征工程向量于加权词嵌入向量拼接 vec(si)表示拼接后的向量; 引入语义信权 利 要 求 书 1/3 页 2 CN 115292450 A 2息, 将拼接后的向量输入到 朴素贝叶斯分类 器完成数据分类分级句子的识别。 4.如权利要求1 ‑3任意一项所述的一种基于信 息抽取的数据分类分级领域知识库构建 方法, 其特征在于, 给的一个句子集合D={(s1, y1), (s2, y2), ..., (sN, yN)}, si={t1, t2, ..., tM}, yi∈{0, 1}表示类别标签; 朴素贝叶斯分类器的目标是为si找到一个正确的标签yi, 其 形式表达式如下: 对于给定的句子si, 朴素贝叶斯分类器计算句子在 各类变量下的后验概率p(yi|si), 具 有最大概 率值的类称为 最大后验 估计, 表示 为: 5.如权利要求1~3任意一项所述的一种基于信息抽取的数据分类分级领域知识库构 建方法, 其特 征在于, 所述S4 步骤具体包括以下子步骤: S401、 表格结构解析; 所述表格结构解析主要包括处理合并单元格、 复杂表头处理, 过 滤不规则表格和跨页表格判定; S402、 表格字段抽取; 首先为待抽取的字段制定角色和匹配规则, 具体是指, 通过观察 目标文档中的分类分级表格, 根据待抽取字段在表头与表内容中的表达制定规则集; 接着, 按序遍历 每一列, 将每个单元格的内容与规则集进 行匹配, 如果某一列匹配成功, 记录匹配 的列在表格的位置index及角色; 最后, 遍历index列, 提取单元格, 单元格即为所需字段信 息。 6.如权利要求1~3任意一项所述的一种基于信息抽取的数据分类分级领域知识库构 建方法, 其特 征在于, 所述S5步骤具体包括以下子步骤: S501、 语义依存分析; 使用LTP自带的语义依存分析工具解析分类分级句子; S502、 语义依存树化简; 通过S501步骤解析分类分级句子后得到分类分级句子中的原 始语义依存树, 对原 始语义依存树进行简化; S503、 Tregex模式生成; 通过观察简化后的语义依存树, 找到覆盖分类分级元组的最短 路径, 将其表示 为Tregex 模式。 7.如权利要求6所述的一种基于信息抽取的数据分类分级领域知识库构建方法, 其特 征在于, 所述S501步骤中, 使用LTP自带的语义依存分析工具解析分类分级句子, 解析出分 类分级句子中的语义依存关系和词性, 在分类分级句子中标记语义依存关系标签和词性标 签。 8.如权利要求7所述的一种基于信息抽取的数据分类分级领域知识库构建方法, 其特 征在于, 语义依存关系包括当事EXP、 客事CONT、 点标记mPU NC、 依附标记mDEPD、 并列eCOO、 修 饰FEAT和系事L INK。 9.如权利要求7所述的一种基于信息抽取的数据分类分级领域知识库构建方法, 其特 征在于, S502步骤中, 对原始语义依存树进行简化的方式包括添加、 合并和删除, 所述添加 是指, 将带有词性标注u、 c或mPUNC 关系标记的节 点添加到前一个节 点; 所述合并是指, 合并权 利 要 求 书 2/3 页 3 CN 115292450 A 3
专利 一种基于信息抽取的数据分类分级领域知识库构建方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:25
上传分享
举报
下载
原文档
(813.6 KB)
分享
友情链接
GB-T 41265-2022 可穿戴设备的光辐射安全要求.pdf
炼石 以数据为中心的安全技术框架.pdf
DL-T 1074-2019 电力用直流和交流一体化不间断电源.pdf
DB3212-T 1077—2021 家庭经济困难学生教育精准资助规范 泰州市.pdf
GB-T 43580-2023 区块链和分布式记账技术 存证通用服务指南.pdf
GB-T 31497-2015 信息技术 安全技术 信息安全管理 测量.pdf
GB-T 34079.1-2021 基于云计算的电子政务公共平台服务规范 第1部分:服务分类与编码.pdf
GB-T 36972-2018 电动自行车用锂离子蓄电池.pdf
GB-T 24720-2009 交通锥.pdf
TB-T 2973.2-2019 列车尾部安全防护装置 第2部分%3A 旅客列车尾部安全防护装置.pdf
GB-T 35009-2018 串行NAND型快闪存储器接口规范.pdf
国家医疗保障局关于加强网络安全和数据保护工作的指导意见.pdf
T-GDCMA 017—2023 信用园区评价规范.pdf
GB-T 38634.2-2020 系统与软件工程 软件测试 第2部分:测试过程.pdf
GB-T 22264.3-2022 安装式数字显示电测量仪表 第3部分:功率表和无功功率表的特殊要求.pdf
GB-T 20806-2022 饲料中中性洗涤纤维 NDF 的测定.pdf
GB-T 5686.4-2022 锰铁、锰硅合金、氮化锰铁和金属锰 磷含量的测定 钼蓝分光光度法和铋磷钼蓝分光光度法.pdf
DB13-T 2338.3-2016 谷子抗病虫性鉴定技术规程 第3部分:白发病 河北省.pdf
GA 482 《中华人民共和国机动车驾驶证》第2号修改单.pdf
DB11-T 2111-2023 信息系统运行维护服务 用户单位实施要求 北京市.pdf
1
/
17
评价文档
赞助3元 点击下载(813.6 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。