(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211117627.6
(22)申请日 2022.09.14
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 李波 刘婷 李辉 曾洪 王海洋
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 陈一鑫
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/211(2020.01)
G06F 40/242(2020.01)
G06F 40/268(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向技术文献的技术功效矩阵构建方
法
(57)摘要
本发明公开一种面向技术文献的专利技术
功效提取方法, 分析高端装备领域专利技术术语
和功效术语的特征, 提高中文专利中的技术术语
和功效术语提取的精确性。 本发 明构建了面向技
术术语和功效术语抽取的深度学习模 型, 并结合
专利的句式规则, 进行技术术语启发 式特征的构
造, 通过构建功效术语特征词典, 定位功效语句,
加快模型的训练速度, 提高抽取精度, 为降低人
工标注样本的成本以及避免数据集过小导致模
型过拟合现象, 采用一种自训练算法实现模型的
弱监督学习。 通过词聚类从中选择与专利文本主
题最相近的技术术语, 利用余弦相似度合并相似
语义的术语, 构建技 术功效矩阵。
权利要求书3页 说明书7页 附图2页
CN 115481636 A
2022.12.16
CN 115481636 A
1.一种面向技 术文献的专利技 术功效提取 方法, 包括以下步骤:
步骤1: 利用工具LTP对技术文献进行分词、 词性标注, 词或词语是作为语句分析的基本
单位, 通过依存句法分析将句子所包含的语法单元或词语单元之间的关系, 更换为句法分
析树, 将技术功效目标句分解为短语的嵌套和层叠的组合, 强调句 子中词语之间的依赖关
系, 提取具有依存关系的词对, 将复杂冗长的技术、 功效术语转为词语组合的形式; 对专利
数据集的术语采用{B,I,O}的标签方案进行人工标注, 即由标签{B,I}表示技术和功效术
语, 标签{O}表示非技 术功效术语, 构造模型训练数据集和 测试数据集;
步骤2: 由于术语语法特征差别较大, 其上下文语义是术语抽取的重要依据, 词向量包
含的语义信息能增强理论术语的泛化性能, 提升抽取的效果, 因此对步骤1已标注的训练集
采用skip‑gram模型进行 预训练, 得到词向量;
步骤3: 分别构建技 术术语抽取模型和功效术语抽取模型;
步骤3.1: 通过技术术语前后的线索词以及技术术语所具备的词语特征, 构建技术术语
实体特征;
步骤3.2: 根据技术文献在表达功效的语句中存在的相应规则, 构建功效属性词典, 进
行功效语句的定位, 初步过滤功效语句构建功效术语; 将功效语句的功效术语拆分为主词
与受词分别进行提取; 主词表示功效和作用的词语, 受词表示主词所作用的属性;
步骤3.3: 将词性、 依存关系加入词向量中作为功效术语抽取模型的输入, 将技术术语
实体特征、 词向量、 词性、 依存关系合并成向量矩阵作为 技术术语抽取模型的输入;
步骤3.4: 基于双向长短时记 忆神经网络构建技 术术语抽取模型和功效术语抽取模型;
步骤4: 实现技术术语抽取模型和功效术语抽取模型的弱监督学习; 使用自训练算法,
利用已标注的少量数据和未标注数据对模型进行训练, 进行模型 的弱监督学习, 减少人工
标注样本集的人工成本, 避免模型的过拟合; 其具体步骤为:
步骤4.1: 对抽取模型初始化, 这里的抽取模型表示技术术语抽取模型或功效术语抽取
模型, 使用少量已标注数据对抽取模型进行训练;
步骤4.2: 将训练出的抽取模型对未标注数据进行标注, 采用判决算法计算每一标注判
决的置信度, 优选出置信度高于阈值的可信数据;
执行标准的硬判决Viterbi算法, 以上一位置状态为前提, 计算到当前位置得出的最大
概率的状态作为 最优隐含状态序列即幸存路径;
在执行过程中存储各子路径的分支度量值, 即相邻 两位置节点间的所有可能路径的分
支度量值
存储节点xt‑1与节点xt间所有子路径的分支度量 值的公式如下:
其中,
表示t‑1位置各标签的状态得分,
表示t‑1位置各标签与t位置各标签
间的转移得分,
表示t‑1位置各标签的状态的得分;
计算各幸存子路径在 路径竞争中被选择的概率, 将其作为相应节点标注的置信度, t位
置节点标注的置信度表示 为:
其中,
为节点xt‑1与节点xt间的幸存子路径度量值,
为节点xt‑1与节点xt间的权 利 要 求 书 1/3 页
2
CN 115481636 A
2各子路径度量 值;
步骤4.3: 将这些可信数据与其预测标签一起进行模型的增量训练, 训练后对剩下的未
标注数据同样进行如上操作, 以此不断迭代, 直至没有高于阈值的数据为止;
步骤5: 根据步骤4得到的抽取模型, 对目标技术文献进行技术术语抽取和功效术语抽
取, 抽取结果分别技 术术语向量和功效术语向量;
以名称中出现的术语作为种子词, 利用余弦相似度计算各技术术语与种子词之间的相
似度, 选择相似度值 最大的一个作为与主题最相近的技 术主题词, 余弦相似度公式为:
其中, A和B为 术语对应的向量, Ai, Bi为对应向量中的元 素, n表示元 素总个数;
步骤6: 判定术语相似度;
采用基于相似度理论的实体对齐方法, 分别计算技术主题词和 功效术语向量间的余弦
相似度来判定短语间的语义相似度, 根据相似度的大小确定短语间是否具有相同含义, 对
相同语义词语进行合并;
步骤7: 通过上述步骤获得技术方案的唯一技术主题词和多个功效术语, 以技术主题词
为横坐标, 功效术语为纵坐标, 交点表示对应技 术方案数量, 构建技 术功效矩阵。
2.如权利要求1所述的一种面向技术文献的专利技术功效提取方法, 其特征在于, 所述
技术术语抽取模型和功效术语抽取模型都包括: 输入层、 隐藏层、 输出层;
对于隐藏层前向序列
和隐藏层后向序列
t时刻的状态和输出分别表示 为:
其中, xt表示t时刻的输入数据,
表示xt前向传播的权重矩阵,
表示
前向传
播的权重矩阵,
表示前向传播的偏置,
表示后向传播的偏置, yt'表示通过输出层预测
节点的分类标签, by表示提取过程中的偏置值;
给定输入序列x={x1,x2,...,xt‑1,xt,...}时, 对于技术术语抽取模型, 其输入序列为:
x={w,s,d,c }, 对于功效术语抽取模型, 其输入序列为: x={w,s,d}, 其中, w表示词向量, s
表示词性向量, d表示依存关系向量, c表示 技术术语实体特 征向量;
当标注序列为y={y1,y2,...,yt‑1,yt,...}时, 标注序列的评估得分函数由下式表示:
其中,
表示t‑1位置yt‑1转移到当前位置yt的得分,
表示输入序列x={x1,
x2,...,xt‑1,xt,...}在t位置为yt标签的得分, T表示标注序列的结束位置;权 利 要 求 书 2/3 页
3
CN 115481636 A
3
专利 一种面向技术文献的技术功效矩阵构建方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:51上传分享