(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211192280.1
(22)申请日 2022.09.28
(65)同一申请的已公布的文献号
申请公布号 CN 115270801 A
(43)申请公布日 2022.11.01
(73)专利权人 浙江太美医疗科技股份有限公司
地址 314001 浙江省嘉兴 市昌盛南路3 6号
智慧产业创新园9号楼3层
(72)发明人 唐小雅 王永明
(74)专利代理 机构 苏州三英知识产权代理有限
公司 32412
专利代理师 潘时伟
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06N 3/06(2006.01)
G06N 3/08(2006.01)(56)对比文件
CN 114841151 A,202 2.08.02
WO 2021190236 A1,2021.09.3 0
WO 202013 5337 A1,2020.07.02
CN 111444305 A,2020.07.24
CN 111382575 A,2020.07.07
CN 113705237 A,2021.1 1.26
CN 111368528 A,2020.07.0 3
US 2022067278 A1,202 2.03.03
US 202140 6706 A1,2021.12.3 0
吴小雪等.预训练语言模型在中文电子病历
命名实体识别上的应用. 《电子质量》 .2020,(第
09期),
Liu Meizhen 等.Kn owledge graph
attention mechanism for distant
supervisi on neural relati on extracti on.
《Knowledge-Based System s》 .2022,
审查员 闪赛
(54)发明名称
文本信息抽取模 型的训练方法、 文本信息抽
取方法和应用
(57)摘要
本申请公开了一种文本信息抽取模型的训
练方法、 文本信息抽取方法和应用, 用于解决现
有技术中文本信息抽取不准确的问题, 其中该训
练方法包括: 获取样本训练集中各条样本的语义
特征表示; 基于各条样本的语义特征表示, 构建
实体类别识别任务损失函数; 基于各条样本的语
义特征表示, 构建头实体识别任务损失函数; 基
于各条样 本中的头实体和对应的头实体类别, 获
得融合特征表示; 基于融合特征表示, 构建尾实
体和关系识别任务损失函数; 基于实体类别识别
任务损失函数、 头实体识别任务损失函数以及尾
实体和关系识别任务损失函数, 对文本信息抽取
模型进行训练, 确定文本信息抽取模 型的模型参
数。
权利要求书3页 说明书17页 附图5页
CN 115270801 B
2022.12.30
CN 115270801 B
1.一种文本信息抽取模型的训练方法, 其特 征在于, 所述方法包括:
获取样本训练集中各 条样本的语义特 征表示;
基于所述各条样本的语义特征表示, 识别所述各条样本中的词取得设定实体类别的开
头和结尾的概 率分布, 并构建实体 类别识别任务损失函数;
基于所述各条样本的语义特征表示, 识别所述各条样本中的词为头实体的开头和结尾
的概率分布, 并构建头实体识别任务损失函数;
基于所述各 条样本中的头实体和对应的头实体 类别, 获得融合特 征表示;
基于所述融合特征表示, 识别所述各条样本 中的词取得设定关系类别的开头和结尾的
概率分布, 并构建尾实体和关系识别任务损失函数;
基于所述实体类别识别任务损失函数、 头实体识别任务损失函数以及尾实体和关系识
别任务损失函数, 对所述文本信息抽取模型进行训练, 确定所述文本信息抽取模型 的模型
参数。
2.根据权利要求1所述的文本信息抽取模型的训练方法, 其特征在于, 所述方法还包
括:
利用词典将原 始语料映射 为序列化的符号表示文本;
对所述符号表示文本进行第一固定 长度的裁 剪和填充, 以获得第一子样本集;
在第二固定长度滑窗中, 对所述符号表示文本进行所述第一固定长度的裁剪, 以获得
第二子样本集, 其中, 所述第二固定 长度大于第一固定 长度;
将所述第一子样本集和第二子样本集组合为样本集, 其中, 所述样本集中的样本为第
一固定长度的符号表示文本 。
3.根据权利要求2所述的文本信 息抽取模型的训练方法, 其特征在于, 获取样本训练集
中各条样本的语义特 征表示, 具体包括:
利用预训练后的词向量模型, 将所述样本集中的各 条样本映射 为向量化表示;
对所述向量化表示的各条样本进行编码与解码, 以获得所述样本集中各条样本的语义
特征表示;
确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样
本的语义特 征表示。
4.根据权利要求1所述的文本信 息抽取模型的训练方法, 其特征在于, 基于所述实体类
别识别任务损失函数、 头实体识别任务损失函数以及尾实体和关系识别任务损失函数, 对
所述文本信息抽取模型进行训练, 具体包括:
对所述实体类别识别任务损失函数、 头实体识别任务损失函数以及尾实体和关系识别
任务损失函数进行加权求和, 得到综合损失函数, 其中, 所述尾实体和关系识别任务损失函
数的权重与设定实体的长度相关联;
基于所述综合损失函数, 对所述文本信息抽取模型进行训练。
5.根据权利要求1所述的文本信 息抽取模型的训练方法, 其特征在于, 识别所述各条样
本中的词取得设定实体类别的开头和结尾的概率分布为 实体类别识别任务, 识别所述各条
样本中的词为头实体的开头和结尾的概率分布为头实体识别任务, 识别所述各条样本中的
词取得设定关系类别的开头和结尾的概 率分布为尾实体和关系识别任务; 其中,
所述实体类别识别任务、 头实体识别任务、 以及尾实体和关系识别任务之间的参数为权 利 要 求 书 1/3 页
2
CN 115270801 B
2分层共享。
6.根据权利要求1所述的文本信 息抽取模型的训练方法, 其特征在于, 基于所述各条样
本中的头实体和对应的头实体 类别, 获得融合特 征表示的计算方法为:
其中,
为第k个头实体的头、 尾位置词特征表示的平均向量,
为第k个头实体
的实体类别的向量化表示,
表示将
和
进行维度拼接,
为
权重,
为偏置。
7.一种文本信息抽取 方法, 其特 征在于, 所述方法包括:
基于文本信息抽取模型抽取目标文本中的实体集合, 其中, 所述实体集合中的各实体
对应设定实体 类别;
基于所述文本信息抽取模型抽取所述目标文本中的头实体集合, 其中, 所述头实体集
合为所述实体集 合的子集;
以所述头实体集合以及其中头实体对应的设定实体类别为输入, 基于所述文本信 息抽
取模型抽取目标文本中的尾实体和关系集 合;
基于所述实体集合、 头实体集合、 以及尾实体和关系集合, 确定所述目标文本 中的头实
体‑头实体实体 类别‑关系‑尾实体‑尾实体实体 类别的对应关系;
其中, 所述文本信息抽取模型基于 权利要求1至 6任一项所述的方法训练获得。
8.根据权利要求7 所述的文本信息抽取 方法, 其特 征在于, 所述方法还 包括:
遍历目标文本以获得存在于预设词典中的实体;
判断获得的所述实体是否满足第一预设规则; 若是,
则将获得的所述实体添加进所述头实体集合, 并基于获得的所述实体抽取对应的尾实
体和关系。
9.根据权利要求7 所述的文本信息抽取 方法, 其特 征在于, 所述方法还 包括:
基于第二预设规则确定所述头实体集 合中的时间类头实体;
在所述时间类头实体所属语句的前一语句中寻找时间类 尾实体;
基于第三预设规则, 确定所述时间类头实体和时间类 尾实体之间的关系。
10.根据权利要求7 所述的文本信息抽取 方法, 其特 征在于, 所述方法还 包括:
遍历所述实体集合以确定待拆分实体, 其中, 所述待拆分实体包括预设词典中的至少
两个实体;
以所述预设词典中匹配到的最长实体为拆分单 元, 对所述待拆分实体进行拆分。
11.一种文本信息抽取模型的训练装置, 其特 征在于, 所述训练装置包括:
获取模块, 用于获取样本训练集中各 条样本的语义特 征表示;
第一识别模块, 用于基于所述各条样本的语义特征表示, 识别所述各条样本中的词取
得设定实体 类别的开头和结尾的概 率分布, 并构建实体 类别识别任务损失函数;
第二识别模块, 用于基于所述各条样本的语义特征表示, 识别所述各条样本中的词为
头实体的开头和结尾的概 率分布, 并构建头实体识别任务损失函数;
融合模块, 用于基于所述各条样本中的头实体和对应的头实体类别, 获得融合特征表
示;权 利 要 求 书 2/3 页
3
CN 115270801 B
3
专利 文本信息抽取模型的训练方法、文本信息抽取方法和应用
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:43上传分享