iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211200695.9 (22)申请日 2022.09.29 (71)申请人 深圳市龙光云众智慧科技有限公司 地址 518133 广东省深圳市宝安区新 安街 道海滨社区N23区海秀路23号龙光世 纪大厦2栋1201 (72)发明人 谭伟 朱苑萍 李韦 黎明 王允  (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 史炜炜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) (54)发明名称 基于Node2Vec的文本处理方法、 装置、 存储 介质及电子设备 (57)摘要 本发明涉及自然语 言处理领域, 公开了一种 基于Node2Vec的文本处理方法、 装置、 存储介质 及电子设备。 本发明通过对目标文本分别进行分 词处理和单字分割处理, 得到词集合和字集合; 计算词和字的TF ‑IDF值; 分别对词和字进行滑动 窗口操作, 得到二元组词和二元组字; 根据二元 组词和所述二元组字, 以TF ‑IDF值为权重, 构建 三元组词和三元组字; 将所述三元组词和所述三 元组字输入Node2Vec模型进行训练, 所述 Node2Vec模型输 出词节点向量和字节点向量; 根 据所述词节 点向量和所述字节 点向量, 构建文本 向量化表示。 本发明减少了分词对结果的影响, 提高了文本向量表示的准确性, 更全面地得到文 本语义表示。 权利要求书2页 说明书6页 附图3页 CN 115481639 A 2022.12.16 CN 115481639 A 1.基于Node2Vec的文本处 理方法, 其特 征在于, 包括: S1: 获取文本; S2: 对所述文本分别进行分词处 理和单字分割处 理, 得到词集 合和字集 合; S3: 计算词集 合中每个词的TF ‑IDF值以及字集 合中每个字的TF ‑IDF值; S4: 分别对词集合中的每个词和字集合中每个字进行滑动窗口操作, 得到二元组词和 二元组字; S5: 根据所述二元组词和所述二元组字, 分别以每个词的TF ‑IDF值和每个字 的TF‑IDF 值为权重, 构建三元组词和三元组字; S6: 将所述三元组词和 所述三元组字输入Node2Vec模型进行训练, 所述Node2Vec模型 输出词节点向量和字节点向量; S7: 根据所述词节点向量和所述字节点向量, 构建文本向量 化表示。 2.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S7中, 所述根据 所述词节点向量和所述字节点向量, 构建文本向量 化表示, 其表达式如下 所示: S=[Sw,Sc] 其中, Sword表示文本的词级别向量, i表示文本的第一个词的标记, j表示文本的最后一 个词的标记, Ei表示词节点向量, Scharacter表示文本的字级别向量, m表示文本的第一个字的 标记, n表示文本的最后一个字的标记, En表示字节点向量, S表示由词级别向量和字级别向 量拼接得到的文本向量。 3.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S4中, 根据 bigram分别对词集 合中的每 个词和字集 合中每个字进行滑动窗口操作。 4.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S6中, 设置 Node2Vec模型的向量维度为 N纬度。 5.基于Node2Vec的文本处 理装置, 其特 征在于, 包括: 获取单元, 用于获取文本; 分词单元, 用于对所述文本进行分词处 理, 得到词集 合; 分字单元, 用于对所述文本进行 单字分割处 理, 得到字集合; 计算单元, 用于计算词集 合中每个词的TF ‑IDF值以及字集 合中每个字的TF ‑IDF值; 二元组构建单元, 用于分别对词集合中的每个词和字集合中每个字进行滑动窗口操 作, 得到二元组词和二元组字; 三元组构建单元, 用于根据所述二元组词和所述二元组字, 分别以每个词的TF ‑IDF值 和每个字的TF ‑IDF值为权重, 构建三元组词和三元组字; Node2Vec模型, 所述三元组词和所述三元组字输入Node2Vec模型进行训练, 所述 Node2Vec模型输出词节点向量和字节点向量; 文本表示单 元, 用于根据所述词节点向量和所述字节点向量, 构建文本向量 化表示。 6.根据权利 要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述文本表示单权 利 要 求 书 1/2 页 2 CN 115481639 A 2元根据所述词节点向量和所述字节点向量, 构建文本向量 化表示, 其表达式如下 所示: S=[Sw,Sc] 其中, Sword表示文本的词级别向量, i表示文本的第一个词的标记, j表示文本的最后一 个词的标记, Ei表示词节点向量, Scharacter表示文本的字级别向量, m表示文本的第一个字的 标记, n表示文本的最后一个字的标记, En表示字节点向量, S表示由词级别向量和字级别向 量拼接得到的文本向量。 7.根据权利 要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述二元组构建 单元根据bigram 分别对词集 合中的每 个词和字集 合中每个字进行滑动窗口操作。 8.根据权利要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述Node2Vec模 型的向量维度为 N纬度。 9.一种计算机可读存储介质, 所述计算机可读存储介质内存储有计算机程序, 其特征 在于, 所述计算机程序被处 理器执行时, 实现权利要求1~4中任一项所述的方法。 10.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有可在所述 处理器上运行的计算机程序, 当所述计算机程序被所述处理器执行时, 实现权利要求1~4 中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115481639 A 3

PDF文档 专利 基于Node2Vec的文本处理方法、装置、存储介质及电子设备

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Node2Vec的文本处理方法、装置、存储介质及电子设备 第 1 页 专利 基于Node2Vec的文本处理方法、装置、存储介质及电子设备 第 2 页 专利 基于Node2Vec的文本处理方法、装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。