iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211200695.9 (22)申请日 2022.09.29 (71)申请人 深圳市龙光云众智慧科技有限公司 地址 518133 广东省深圳市宝安区新 安街 道海滨社区N23区海秀路23号龙光世 纪大厦2栋1201 (72)发明人 谭伟 朱苑萍 李韦 黎明 王允 (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 史炜炜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) (54)发明名称 基于Node2Vec的文本处理方法、 装置、 存储 介质及电子设备 (57)摘要 本发明涉及自然语 言处理领域, 公开了一种 基于Node2Vec的文本处理方法、 装置、 存储介质 及电子设备。 本发明通过对目标文本分别进行分 词处理和单字分割处理, 得到词集合和字集合; 计算词和字的TF ‑IDF值; 分别对词和字进行滑动 窗口操作, 得到二元组词和二元组字; 根据二元 组词和所述二元组字, 以TF ‑IDF值为权重, 构建 三元组词和三元组字; 将所述三元组词和所述三 元组字输入Node2Vec模型进行训练, 所述 Node2Vec模型输 出词节点向量和字节点向量; 根 据所述词节 点向量和所述字节 点向量, 构建文本 向量化表示。 本发明减少了分词对结果的影响, 提高了文本向量表示的准确性, 更全面地得到文 本语义表示。 权利要求书2页 说明书6页 附图3页 CN 115481639 A 2022.12.16 CN 115481639 A 1.基于Node2Vec的文本处 理方法, 其特 征在于, 包括: S1: 获取文本; S2: 对所述文本分别进行分词处 理和单字分割处 理, 得到词集 合和字集 合; S3: 计算词集 合中每个词的TF ‑IDF值以及字集 合中每个字的TF ‑IDF值; S4: 分别对词集合中的每个词和字集合中每个字进行滑动窗口操作, 得到二元组词和 二元组字; S5: 根据所述二元组词和所述二元组字, 分别以每个词的TF ‑IDF值和每个字 的TF‑IDF 值为权重, 构建三元组词和三元组字; S6: 将所述三元组词和 所述三元组字输入Node2Vec模型进行训练, 所述Node2Vec模型 输出词节点向量和字节点向量; S7: 根据所述词节点向量和所述字节点向量, 构建文本向量 化表示。 2.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S7中, 所述根据 所述词节点向量和所述字节点向量, 构建文本向量 化表示, 其表达式如下 所示: S=[Sw,Sc] 其中, Sword表示文本的词级别向量, i表示文本的第一个词的标记, j表示文本的最后一 个词的标记, Ei表示词节点向量, Scharacter表示文本的字级别向量, m表示文本的第一个字的 标记, n表示文本的最后一个字的标记, En表示字节点向量, S表示由词级别向量和字级别向 量拼接得到的文本向量。 3.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S4中, 根据 bigram分别对词集 合中的每 个词和字集 合中每个字进行滑动窗口操作。 4.根据权利要求1所述的基于Node2Vec的文本处理方法, 其特征在于, S6中, 设置 Node2Vec模型的向量维度为 N纬度。 5.基于Node2Vec的文本处 理装置, 其特 征在于, 包括: 获取单元, 用于获取文本; 分词单元, 用于对所述文本进行分词处 理, 得到词集 合; 分字单元, 用于对所述文本进行 单字分割处 理, 得到字集合; 计算单元, 用于计算词集 合中每个词的TF ‑IDF值以及字集 合中每个字的TF ‑IDF值; 二元组构建单元, 用于分别对词集合中的每个词和字集合中每个字进行滑动窗口操 作, 得到二元组词和二元组字; 三元组构建单元, 用于根据所述二元组词和所述二元组字, 分别以每个词的TF ‑IDF值 和每个字的TF ‑IDF值为权重, 构建三元组词和三元组字; Node2Vec模型, 所述三元组词和所述三元组字输入Node2Vec模型进行训练, 所述 Node2Vec模型输出词节点向量和字节点向量; 文本表示单 元, 用于根据所述词节点向量和所述字节点向量, 构建文本向量 化表示。 6.根据权利 要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述文本表示单权 利 要 求 书 1/2 页 2 CN 115481639 A 2元根据所述词节点向量和所述字节点向量, 构建文本向量 化表示, 其表达式如下 所示: S=[Sw,Sc] 其中, Sword表示文本的词级别向量, i表示文本的第一个词的标记, j表示文本的最后一 个词的标记, Ei表示词节点向量, Scharacter表示文本的字级别向量, m表示文本的第一个字的 标记, n表示文本的最后一个字的标记, En表示字节点向量, S表示由词级别向量和字级别向 量拼接得到的文本向量。 7.根据权利 要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述二元组构建 单元根据bigram 分别对词集 合中的每 个词和字集 合中每个字进行滑动窗口操作。 8.根据权利要求5所述的基于Node2Vec的文本处理装置, 其特征在于, 所述Node2Vec模 型的向量维度为 N纬度。 9.一种计算机可读存储介质, 所述计算机可读存储介质内存储有计算机程序, 其特征 在于, 所述计算机程序被处 理器执行时, 实现权利要求1~4中任一项所述的方法。 10.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有可在所述 处理器上运行的计算机程序, 当所述计算机程序被所述处理器执行时, 实现权利要求1~4 中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115481639 A 3
专利 基于Node2Vec的文本处理方法、装置、存储介质及电子设备
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:42
上传分享
举报
下载
原文档
(537.0 KB)
分享
友情链接
GB/T 21709.3-2021 针灸技术操作规范 第3部分:耳针.pdf
DB31-T 1311-2021 上海市 数据去标识化共享指南 .pdf
DB1331-T 028-2022 公路工程施工质量保证资料标准化导则 雄安新区.pdf
GB-T 2572-2005 纤维增强塑料平均线膨胀系数试验方法.pdf
专利 冷藏车用温控装置.PDF
GB-T 20009-2019 信息安全技术 数据库管理系统安全评估准则.pdf
T-ZSFX 007—2020 中山装工业化生产技术规范.pdf
DB32-T 4111-2021 预应力混凝土实心方桩基础技术规程 江苏省.pdf
DB4403-T 12-2019 物业服务要求 商务写字楼 深圳市.pdf
GM-T 0116-2021 信息系统密码应用测评过程指南.pdf
T-CRHA 017—2023 人肝祖细胞类器官构建、质量控制与保藏操作指南.pdf
GB 18614-2012 七氟丙烷(HFC227ea)灭火剂.pdf
GB-T 26837-2011 无损检测仪器 固定式和移动式工业X射线探伤机.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
GB-T 3161-2015 光学经纬仪.pdf
GB-T 39433-2020 气弹簧设计计算.pdf
国家能源局综合司 关于印发2021年电力安全监管重点任务的通知.pdf
GB-T 31507-2015 信息安全技术 智能卡通用安全检测指南.pdf
GB-T 39620-2020 沿海船舶自动识别系统 AIS 基站技术要求.pdf
GB-T 5153-2016 变形镁及镁合金牌号和化学成分.pdf
1
/
12
评价文档
赞助3元 点击下载(537.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。