iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210870358.4 (22)申请日 2022.07.22 (71)申请人 深圳零时科技有限公司 地址 518052 广东省深圳市南 山区南头街 道深南大道10168号佳嘉豪商务大厦 18A (72)发明人 王恩强 黄路明 (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 薛梦 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/205(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 关键字提取模 型的构建方法、 装置及 存储介 质 (57)摘要 本发明公开一种关键字提取模型的构建方 法、 装置及存储介质, 包括: 获取语料数据、 第一 标注结果和第二标注结果; 根据每个词和神经网 络模型确定第一词向量; 将第一词向量输入全 连 接分类层得到 隐状态向量; 根据隐状态向量、 标 注分类层及归一化函数, 得到第一结果; 根据隐 状态向量和卷积神经网络模型得到卷积神经网 络模型的卷积层的第二结果; 根据第二标注结果 和第二结果, 对目标网络模型进行迭代优化直至 整个模型收敛; 根据第一标注结果和第一结果, 对目标网络模型进行迭代优化直至整个模型收 敛; 根据收敛后的神经网络模型、 全连接分类层、 标注分类层得到关键字提取模型。 通过机器自行 学习特征限定规则, 节省了人力, 提高了关键字 提取模型的准确性。 权利要求书3页 说明书11页 附图3页 CN 115114438 A 2022.09.27 CN 115114438 A 1.一种关键 字提取模型的构建方法, 其特 征在于, 包括: 获取语料数据、 第一标注结果和第二标注结果, 所述第一标注结果包括所述语料数据 中的每个词的真实标签, 所述真实标签用于指示所述词 是否是关键字, 所述第二标注结果 包括多个窗口, 每个窗口包括所述语料数据中的一个词的真实标签, 以及所述一个词之后 的(M‑1)个词的真实标签, M为大于1的整数, 每 个窗口包括M个真实标签; 根据每个词和神经网络模型, 确定每个词对应的第一词向量, 所述第一词向量用于指 示对应的词的上 下文信息; 将每个词对应的第一词向量输入全连接分类层, 得到每个词对应的隐状态向量, 所述 隐状态向量用于指示对应的词的预测标签; 根据每个词对应的隐状态向量、 全连接神经网络模型构成的标注分类层, 以及归一化 函数, 得到第一结果, 所述第一结果包括每 个词对应的概 率值大于预设概 率值的预测标签; 根据每个词对应的隐状态向量和卷积神经网络模型, 得到所述卷积神经网络模型的卷 积层的第二结果, 所述第二结果包括多个约束规则, 每个约束规则为所述语料数据的连续M 个词的M个预测标签之间的约束规则; 根据所述第二标注结果和所述第二结果, 对目标网络模型进行迭代优化, 直至所述目 标网络模型 的每个模型收敛, 所述 目标网络模型包括所述神经网络模型、 所述全连接分类 层、 所述标注分类层和所述卷积神经网络模型; 根据所述第一标注结果和所述第一结果, 对所述目标网络模型进行迭代优化, 直至所 述目标网络模型的每 个模型收敛; 根据收敛后的神经网络模型、 全连接分类层、 标注分类层得到所述关键 字提取模型。 2.根据权利要求1所述的关键字提取模型的构建方法, 其特征在于, 所述根据 所述第一 标注结果和所述第一结果, 对所述 目标网络模型进行迭代优化, 直至所述 目标网络模型 的 每个模型收敛, 包括: 采用预设的交叉熵损 失函数, 对所述第一标注结果和所述第一结果进行计算, 得到第 一损失值; 当所述第一损 失值大于预设阈值时, 根据所述第一损 失值和反向传播算法, 计算所述 目标网络模型的每 个模型中的参数的梯度值; 根据所述目标网络模型的每个模型中的参数的梯度值, 以及随机梯度 下降法对每个模 型中的参数进行优化, 并利用优化后的目标网络模型重新计算第一损失值, 直至重新计算 的第一损失值小于所述预设阈值。 3.根据权利要求1或2所述的关键字提取模型的构建方法, 其特征在于, 所述根据所述 第二标注结果和所述第二结果, 对目标网络模型进行迭代优化, 直至所述 目标网络模型 的 每个模型收敛, 包括: 采用预设的平方损 失函数, 对所述第二标注结果和所述第二结果进行计算, 得到第二 损失值; 当所述第二损 失值大于预设阈值时, 根据所述第二损 失值和反向传播算法, 计算所述 目标网络模型的每 个模型中的参数的梯度值; 根据所述目标网络模型的每个模型中的参数的梯度值, 以及随机梯度 下降法对每个模 型中的参数进行优化, 并利用优化后的目标网络模型重新计算第二损失值, 直至重新计算权 利 要 求 书 1/3 页 2 CN 115114438 A 2的第二损失值小于所述预设阈值。 4.根据权利要求1或2所述的关键字提取模型的构建方法, 其特征在于, 所述根据每个 词和神经网络模型, 确定每 个词对应的第一词向量, 包括: 对所述语料 数据进行向量初始化, 得到每 个词的第二词向量; 将每个词的第二词向量输入所述神经网络模型中, 得到每 个词对应的第一词向量。 5.根据权利要求1或2所述的关键字提取模型的构建方法, 其特征在于, 所述根据每个 词对应的 隐状态向量、 全连接神经网络模型构成的标注分类层, 以及 归一化函数, 得到第一 结果, 包括: 将每个词对应的隐状态向量输入所述标注分类层, 得到第三结果, 所述第三结果包括 每个词对应的多个预测标签中各 预测标签的概 率值; 采用所述归一 化函数对所述第三结果进行归一 化处理, 得到所述第一结果。 6.根据权利要求1或2所述的关键字提取模型的构建方法, 其特征在于, 在得到所述关 键字提取模型之后, 还 包括: 获取待抽取文本; 对所述待抽取文本进行向量初始化, 得到所述待抽取文本中的每 个词的词向量; 将所述待抽取文本 中的每个词的词向量输入所述关键字提取模型, 得到所述待抽取文 本的目标 结果, 所述目标 结果中包括所述待抽取文本中的关键 字。 7.一种关键 字提取模型的构建装置, 其特 征在于, 包括: 获取模块, 用于获取语料数据、 第 一标注结果和第 二标注结果, 所述第 一标注结果包括 所述语料数据中的每个词的真实标签, 所述真实标签用于指示所述词是否是关键字, 所述 第二标注结果包括多个窗口, 每个窗口包括所述语料数据中的一个词的真实标签, 以及所 述一个词之后的(M ‑1)个词的真实标签, M为大于1的整数, 每 个窗口包括M个真实标签; 第一确定模块, 用于根据每个词和神经网络模型, 确定每个词对应的第 一词向量, 所述 第一词向量用于指示对应的词的上 下文信息; 第二确定模块, 用于将每个词对应的第一词向量输入全连接分类层, 得到每个词对应 的隐状态向量, 所述隐状态向量用于指示对应的词的预测标签; 第三确定模块, 用于根据每个词对应的隐状态向量、 全连接神经网络模型构成的标注 分类层, 以及 归一化函数, 得到第一结果, 所述第一结果包括每个词对应的概率值大于预设 概率值的预测标签; 第四确定模块, 用于根据每个词对应的隐状态向量和卷积神经网络模型, 得到所述卷 积神经网络模型 的卷积层的第二结果, 所述第二结果包括多个约束规则, 每个约束规则为 所述语料 数据的连续M个词的M个预测标签之间的约束规则; 第一迭代优化模块, 用于根据所述第二标注结果和所述第二结果, 对目标网络模型进 行迭代优化, 直至所述 目标网络模型 的每个模型收敛, 所述 目标网络模型包括所述神经网 络模型、 所述全连接分类层、 所述标注分类层和所述卷积神经网络模型; 第二迭代优化模块, 用于根据所述第一标注结果和所述第一结果, 对所述目标网络模 型进行迭代优化, 直至所述目标网络模型的每 个模型收敛; 第五确定模块, 用于根据收敛后的神经网络模型、 全连接分类层、 标注分类层得到所述 关键字提取模型。权 利 要 求 书 2/3 页 3 CN 115114438 A 3
专利 关键字提取模型的构建方法、装置及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:30
上传分享
举报
下载
原文档
(567.3 KB)
分享
友情链接
GB-T 38548.2-2020 内容资源数字化加工 第2部分:采集方法.pdf
DB23-T 3558—2023 黑龙江省农村生活污水资源化利用技术规程 黑龙江省.pdf
JR-T0223-2021 金融数据安全 数据生命周期安全规范.pdf
DB5226-T 233-2022 大球盖菇冬闲田栽培技术规程 黔东南苗族侗族自治州.pdf
DB13-T 5387-2021 水库库容曲线修测及特征值复核 修正技术导则 河北省.pdf
GB-T 30692-2014 提高在用自动扶梯和自动人行道安全性的规范.pdf
GB 29518-2013 柴油发动机氮氧化物还原剂 尿素水溶液(AUS 32).pdf
GB/T 36448-2018 集装箱式数据中心机房通用规范.pdf
T-SDL 3.5—2021 10 kV智能电缆系统技术规范 第 5 部分 安装与验收规范.pdf
T-ZACA 019—2019 绿色设计产品评价技术规范 预拌混凝土.pdf
GB-T 20988-2007 信息安全技术 信息系统灾难恢复规范.pdf
DL-T 5783-2019 水电水利地下工程地质超前预报技术规程.pdf
T-ZYYX 002—2019 经尿道前列腺等离子电切手术操作技术规范.pdf
GB-T 7002-2008 投光照明灯具光度测试.pdf
DB44-T 719-2010 中央供热水系统节能运行管理规范 广东省.pdf
T-GHDQ 88.2—2022 车辆无线通信信息安全测试规范 第2部分:车载WLAN安全测试规范.pdf
DB44-T 1769-2015 电动汽车用电子设备可靠性试验方法 广东省.pdf
GB-T 4879-2016 防锈包装.pdf
GB-T 34411-2017 基本医疗保险待遇稽核业务规范.pdf
GB-T 42629.3-2023 国际海底区域和公海环境调查规程 第3部分:海洋生物调查.pdf
1
/
18
评价文档
赞助3元 点击下载(567.3 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。