专利 文本信息抽取模型的训练方法、文本信息抽取方法和应用

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211192280.1 (22)申请日 2022.09.28 (65)同一申请的已公布的文献号申请公布号 CN 115270801 A (43)申请公布日 2022.11.01 (73)专利权人浙江太美医疗科技股份有限公司地址 314001 浙江省嘉兴市昌盛南路3 6号智慧产业创新园9号楼3层 (72)发明人唐小雅　王永明　 (74)专利代理机构苏州三英知识产权代理有限公司 32412 专利代理师潘时伟 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/06(2006.01) G06N 3/08(2006.01)(56)对比文件 CN 114841151 A,202 2.08.02 WO 2021190236 A1,2021.09.3 0 WO 202013 5337 A1,2020.07.02 CN 111444305 A,2020.07.24 CN 111382575 A,2020.07.07 CN 113705237 A,2021.1 1.26 CN 111368528 A,2020.07.0 3 US 2022067278 A1,202 2.03.03 US 202140 6706 A1,2021.12.3 0 吴小雪等.预训练语言模型在中文电子病历命名实体识别上的应用. 《电子质量》 .2020,(第 09期), Liu Meizhen 等.Kn owledge graph attention mechanism for distant supervisi on neural relati on extracti on. 《Knowledge-Based System s》 .2022, 审查员闪赛 (54)发明名称文本信息抽取模型的训练方法、文本信息抽取方法和应用 (57)摘要本申请公开了一种文本信息抽取模型的训练方法、文本信息抽取方法和应用，用于解决现有技术中文本信息抽取不准确的问题，其中该训练方法包括：获取样本训练集中各条样本的语义特征表示；基于各条样本的语义特征表示，构建实体类别识别任务损失函数；基于各条样本的语义特征表示，构建头实体识别任务损失函数；基于各条样本中的头实体和对应的头实体类别，获得融合特征表示；基于融合特征表示，构建尾实体和关系识别任务损失函数；基于实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数，对文本信息抽取模型进行训练，确定文本信息抽取模型的模型参数。权利要求书3页说明书17页附图5页 CN 115270801 B 2022.12.30 CN 115270801 B 1.一种文本信息抽取模型的训练方法，其特征在于，所述方法包括：获取样本训练集中各条样本的语义特征表示；基于所述各条样本的语义特征表示，识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布，并构建实体类别识别任务损失函数；基于所述各条样本的语义特征表示，识别所述各条样本中的词为头实体的开头和结尾的概率分布，并构建头实体识别任务损失函数；基于所述各条样本中的头实体和对应的头实体类别，获得融合特征表示；基于所述融合特征表示，识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布，并构建尾实体和关系识别任务损失函数；基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数，对所述文本信息抽取模型进行训练，确定所述文本信息抽取模型的模型参数。 2.根据权利要求1所述的文本信息抽取模型的训练方法，其特征在于，所述方法还包括：利用词典将原始语料映射为序列化的符号表示文本；对所述符号表示文本进行第一固定长度的裁剪和填充，以获得第一子样本集；在第二固定长度滑窗中，对所述符号表示文本进行所述第一固定长度的裁剪，以获得第二子样本集，其中，所述第二固定长度大于第一固定长度；将所述第一子样本集和第二子样本集组合为样本集，其中，所述样本集中的样本为第一固定长度的符号表示文本。 3.根据权利要求2所述的文本信息抽取模型的训练方法，其特征在于，获取样本训练集中各条样本的语义特征表示，具体包括：利用预训练后的词向量模型，将所述样本集中的各条样本映射为向量化表示；对所述向量化表示的各条样本进行编码与解码，以获得所述样本集中各条样本的语义特征表示；确定预设比例的所述样本集中各条样本的语义特征表示为所述样本训练集中各条样本的语义特征表示。 4.根据权利要求1所述的文本信息抽取模型的训练方法，其特征在于，基于所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数，对所述文本信息抽取模型进行训练，具体包括：对所述实体类别识别任务损失函数、头实体识别任务损失函数以及尾实体和关系识别任务损失函数进行加权求和，得到综合损失函数，其中，所述尾实体和关系识别任务损失函数的权重与设定实体的长度相关联；基于所述综合损失函数，对所述文本信息抽取模型进行训练。 5.根据权利要求1所述的文本信息抽取模型的训练方法，其特征在于，识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布为实体类别识别任务，识别所述各条样本中的词为头实体的开头和结尾的概率分布为头实体识别任务，识别所述各条样本中的词取得设定关系类别的开头和结尾的概率分布为尾实体和关系识别任务；其中，所述实体类别识别任务、头实体识别任务、以及尾实体和关系识别任务之间的参数为权　利　要　求　书 1/3 页 2 CN 115270801 B 2分层共享。 6.根据权利要求1所述的文本信息抽取模型的训练方法，其特征在于，基于所述各条样本中的头实体和对应的头实体类别，获得融合特征表示的计算方法为：其中，为第k个头实体的头、尾位置词特征表示的平均向量，为第k个头实体的实体类别的向量化表示，表示将和进行维度拼接，为权重，为偏置。 7.一种文本信息抽取方法，其特征在于，所述方法包括：基于文本信息抽取模型抽取目标文本中的实体集合，其中，所述实体集合中的各实体对应设定实体类别；基于所述文本信息抽取模型抽取所述目标文本中的头实体集合，其中，所述头实体集合为所述实体集合的子集；以所述头实体集合以及其中头实体对应的设定实体类别为输入，基于所述文本信息抽取模型抽取目标文本中的尾实体和关系集合；基于所述实体集合、头实体集合、以及尾实体和关系集合，确定所述目标文本中的头实体‑头实体实体类别‑关系‑尾实体‑尾实体实体类别的对应关系；其中，所述文本信息抽取模型基于权利要求1至 6任一项所述的方法训练获得。 8.根据权利要求7 所述的文本信息抽取方法，其特征在于，所述方法还包括：遍历目标文本以获得存在于预设词典中的实体；判断获得的所述实体是否满足第一预设规则；若是，则将获得的所述实体添加进所述头实体集合，并基于获得的所述实体抽取对应的尾实体和关系。 9.根据权利要求7 所述的文本信息抽取方法，其特征在于，所述方法还包括：基于第二预设规则确定所述头实体集合中的时间类头实体；在所述时间类头实体所属语句的前一语句中寻找时间类尾实体；基于第三预设规则，确定所述时间类头实体和时间类尾实体之间的关系。 10.根据权利要求7 所述的文本信息抽取方法，其特征在于，所述方法还包括：遍历所述实体集合以确定待拆分实体，其中，所述待拆分实体包括预设词典中的至少两个实体；以所述预设词典中匹配到的最长实体为拆分单元，对所述待拆分实体进行拆分。 11.一种文本信息抽取模型的训练装置，其特征在于，所述训练装置包括：获取模块，用于获取样本训练集中各条样本的语义特征表示；第一识别模块，用于基于所述各条样本的语义特征表示，识别所述各条样本中的词取得设定实体类别的开头和结尾的概率分布，并构建实体类别识别任务损失函数；第二识别模块，用于基于所述各条样本的语义特征表示，识别所述各条样本中的词为头实体的开头和结尾的概率分布，并构建头实体识别任务损失函数；融合模块，用于基于所述各条样本中的头实体和对应的头实体类别，获得融合特征表示；权　利　要　求　书 2/3 页 3 CN 115270801 B 3

专利 文本信息抽取模型的训练方法、文本信息抽取方法和应用

专利文本信息抽取模型的训练方法、文本信息抽取方法和应用