iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211149555.3 (22)申请日 2022.09.21 (71)申请人 深圳壹账通智能科技有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室(入驻深圳市 前海商务秘书 有限公司) (72)发明人 邹倩霞 徐亮  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 文本关键词关联方法、 装置、 设备及存储介 质 (57)摘要 本发明涉及人工智能技术, 揭露了一种文本 关键词关联方法, 包括: 在预构建的基础向量转 换网络中添加多个语义特征层, 得到原始向量转 换模型, 利用业务文本数据集合对原始向量转换 模型进行模型训练, 得到标准向量转换模型, 基 于待关联文本中词汇的词频及点互信息值提取 候选关联词集合, 利用标准向量转换模型对候选 关联词集合进行向量转化, 得到关联词向量集 合, 基于各向量的相似度对候选关联词集合中的 目标关键词进行关联词关联, 得到关联词汇图。 本发明还涉及区块链技术, 所述 关联词汇图可存 储在区块链的节点中。 本发明还提出一种文本关 键词关联装置、 电子设备 以及可读存储介质。 本 发明可以提高文本关键词关联的准确性。 权利要求书3页 说明书13页 附图2页 CN 115510188 A 2022.12.23 CN 115510188 A 1.一种文本关键词关联 方法, 其特 征在于, 所述方法包括: 在预构建的基础向量 转换网络中添加多个 语义特征层, 得到原 始向量转换模型; 获取业务文本数据集合, 利用所述业务文本数据集合对所述原始向量转换模型进行模 型训练, 得到标准向量 转换模型; 获取待关联文本, 基于所述待关联文本 中词汇的词频及点互信 息值从所述待关联文本 中提取候选关联词集 合; 利用所述标准向量转换模型对所述候选关联词集合进行向量转化, 得到关联词向量集 合, 基于所述关联词向量集合中各向量的相似度对所述候选关联词集合中的目标关键词进 行关联词关联, 得到关联词汇图。 2.如权利要求1所述的文本关键词关联方法, 其特征在于, 所述在预构建的基础向量转 换网络中添加多个 语义特征层, 得到原 始向量转换模型, 包括: 在所述基础向量 转换网络的输入层后添加实体识别层 及过滤层; 在所述基础向量转换网络的映射层及输出层中间添加 依存句法分析层及词性标注层, 其中, 所述依存语法分析层与所述词性标注层串联; 将添加所述实体识别层、 过滤层、 依存句法分析层及词性标注层的模型作为原始向量 转换模型。 3.如权利要求2中所述的文本关键词关联方法, 其特征在于, 所述利用所述业务文本数 据集合对所述原 始向量转换模型进行模型训练, 得到标准向量 转换模型, 包括: 利用预设大小的滑动窗口对所述业务文本数据集合中的文本进行滑动选取, 得到第 一 训练文本集 合并输入至原 始向量转换模型的输入层中; 利用所述原始向量转换模型的实体识别层对所述第一训练文本集合中的文本进行实 体识别并标记, 将预设标记的实体进行删除处 理, 得到第二训练文本集 合; 利用所述原始向量转换模型的过滤层对所述第二训练文本集合中预设类型的文本进 行删除处 理, 得到第三训练文本集 合; 对所述第三训练文本集 合中的文本进行独热编码, 得到编码向量 集合; 利用所述原始向量转换模型的映射层对所述编码向量集合中的向量进行加权平均, 得 到加权向量; 利用所述原始向量转换模型的依存句法分析层及词性标注层对所述加权向量进行语 义拼接, 得到拼接向量; 利用所述原始向量转换模型的输出层输出所述拼接向量的预测概率, 在所述预测概率 小于预构建的预测阈值时, 调整原始向量转换模型 的模型参数, 并返回所述利用所述原始 向量转换模型的映射层 对所述编码向量集合中的向量进行加权平均的步骤, 直至所述原始 向量转换模型收敛, 停止训练, 得到所述标准向量 转换模型。 4.如权利要求3所述的文本关键词关联方法, 其特征在于, 所述利用所述原始向量转换 模型的依存句法分析层 及词性标注层对所述加权向量进行语义 拼接, 得到拼接向量, 包括: 利用所述依存句法分析层标记所述加权向量中单词间的语法关系, 得到语法关系向 量; 利用所述词性标注层标记所述加权向量中单词间的词性关系, 得到词性标注向量; 拼接所述语法关系向量及所述标注向量得到拼接向量。权 利 要 求 书 1/3 页 2 CN 115510188 A 25.如权利要求1所述的文本关键词关联方法, 其特征在于, 所述基于所述待关联文本中 词汇的词频及点互信息值从所述待关联文本中提取候选关联词集 合, 包括: 对所述待关联文本进行分词处理, 并统计各分词的词频, 将词频大于或等于预设词频 阈值的分词作为高频词汇; 计算各高频词汇间的点互信 息, 将点互信 息大于或等于预设信 息阈值的高频词汇作为 候选关联词, 汇总所有的候选关联词得到候选关联词集 合。 6.如权利要求1所述的文本关键词关联方法, 其特征在于, 所述利用所述标准向量转换 模型对所述候选关联词集合进行向量转化, 得到关联词向量集合, 基于所述关联词向量集 合中各向量的相似度对所述候选关联词集合中的目标关键词进行关联词关联, 得到 关联词 汇图, 包括: 基于用户指令从所述 候选关联词集 合中选取目标关键词; 利用所述标准向量转换模型对候选关联词集合中的目标关键词及非目标关键词进行 向量转化, 得到包 含目标向量及非目标向量的关联词向量 集合; 计算所述非目标向量与所述目标向量间的相似度, 将相似度大于或等于预设相似阈值 的非目标向量作为第一关联向量; 计算所述非目标向量与所述第 一关联向量间的相似度, 将相似度 大于或等于预设相似 阈值的非目标向量作为第二关联向量; 将所述目标向量对应的目标关键词作为根节点, 将所述第 一关联向量对应的候选关联 词作为第一关联节点, 将所述第二关联向量对应的候选关联词作为第二关联节点; 将根节点与第一关联节点相连, 以及将第一关联节点与第二关联节点相连, 得到关联 词汇图。 7.如权利要求4所述的文本关键词关联方法, 其特征在于, 通过下述公式计算所述加权 向量: 其中, V(t)表示加权向量, Ek表示第k个文本向量, W1k表示第k个文本向量对应的第一权 值矩阵, n表示第三训练文本集 合的文本数量。 8.一种文本关键词关联装置, 其特 征在于, 所述装置包括: 模型构建模块, 用于在预构建的基础 向量转换网络中添加多个语义特征层, 得到原始 向量转换模型; 模型训练模块, 用于获取业务文本数据集合, 利用所述业务文本数据集合对所述原始 向量转换模型进行模型训练, 得到标准向量 转换模型; 候选关联词提取模块, 用于获取待关联文本, 基于所述待关联文本中词汇的词频及点 互信息值从所述待关联文本中提取候选关联词集 合; 文本关键词关联模块, 用于利用所述标准向量转换模型对所述候选关联词集合进行向 量转化, 得到关联词向量集合, 基于所述关联词向量集合中各向量的相似度对所述候选关 联词集合中的目标关键词进行关联词关联, 得到关联词汇图。 9.一种电子设备, 其特 征在于, 所述电子设备包括:权 利 要 求 书 2/3 页 3 CN 115510188 A 3

PDF文档 专利 文本关键词关联方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本关键词关联方法、装置、设备及存储介质 第 1 页 专利 文本关键词关联方法、装置、设备及存储介质 第 2 页 专利 文本关键词关联方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。