iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211167757.0 (22)申请日 2022.09.23 (71)申请人 重庆旅游云信息科技有限公司 地址 401120 重庆市渝北区卉竹路2号8栋 第17层 (72)发明人 罗锐 刘华轶 房春光 金灿  (74)专利代理 机构 成都华复知识产权代理有限 公司 512 98 专利代理师 余鹏 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种景区评论关键词提取的方法及系统 (57)摘要 本发明公开了一种景区评论关键词提取的 方法及系统, 其中, 所述方法包括: 对待提取景区 评论文本进行候选关键词提取预处理, 以得到所 述待提取景区评论文本的若干候选关键词; 将待 提取景区评论文本和所述候选关键词输入bert 模型, 获得与所述待提取景区评论文本对应的第 一词向量, 及与所述候选关键词对应的第二词向 量; 分别计算各个所述第一词向量与所述第二词 向量之间的相似度; 将所述第二词向量中的相似 度最高的词向量, 对应的所述候选关键词确定为 所述待提取景区评论文本的关键词。 解决了现有 技术提取的关键词不够准确技术问题, 达到了精 准提取景区评论中的关键词的技 术效果。 权利要求书2页 说明书8页 附图3页 CN 115391491 A 2022.11.25 CN 115391491 A 1.一种景区评论关键词提取的方法, 其特 征在于, 包括: 对待提取景区评论文本进行候选关键词提取预处理, 以得到所述待提取景区评论文本 的若干候选关键词; 将待提取景区评论文本和所述候选关键词输入bert模型, 获得与所述待提取景区评论 文本对应的第一词向量, 及与所述 候选关键词对应的第二词向量; 分别计算所述第一词向量与各个所述第二词向量之间的相似度; 将所述第二词向量中的相似度最高的词向量, 对应的所述候选关键词确定为所述待提 取景区评论文本的关键词。 2.根据权利要求1所述的景区评论关键词提取的方法, 其特征在于, 所述对待提取景区 评论文本进行候选 关键词提取预处理, 以得到所述待提取景区评论文本的若干候选 关键词 的步骤之前, 还 包括: 根据预设的词典对所述待提取 景区评论文本进行分词, 以得到若干初步分词结果; 根据预设的停用词表对所述若干初步分词结果进行去停用词, 以得到所述待提取景区 评论文本的若干分词结果。 3.根据权利要求1所述的景区评论关键词提取的方法, 其特征在于, 所述分别计算各个 所述第一词向量与所述第二词向量的相似度的步骤, 包括: 分别计算所述第一词向量与各个所述第二词向量的余弦相似度; 分别计算各个所述第二词向量之间的余弦距离; 将所述余弦相似度和所述余弦距离输入加权公式, 计算得到各个所述候选关键词对应 的权重; 所述加权公式表示为: 权重值=α *余弦相似度+(1 ‑α )*余弦距离, α ∈[0,1]根据所述权 重值大小 进行排序。 4.根据权利要求1所述的景区评论关键词提取的方法, 其特征在于, 所述待提取的景区 评论文本包括: 旅游文章、 游客评论及景区自评 。 5.一种景区评论关键词提取的系统, 其特 征在于, 所述系统包括: 预处理模块, 用于对待提取景区评论文本进行候选关键词提取预处理, 以得到所述待 提取景区评论文本的若干候选关键词; bert模块, 用于将待提取景区评论文本和所述候选关键词输入bert模型, 获得与所述 待提取景区评论文本对应的第一词向量, 及与所述 候选关键词对应的第二词向量; 相似度计算模块, 用于分别计算所述第一词向量与各个所述第二词向量之间的相似 度; 输出模块, 用于将所述第二词向量中的相似度最高的词向量, 对应的所述候选关键词 确定为所述待提取 景区评论文本的关键词。 6.根据权利要求5所述的景区评论关键词提取的系统, 其特 征在于, 所述系统还 包括: 词典分词模块, 用于根据预设的词典对所述待提取景区评论文本进行分词, 以得到若 干初步分词结果; 停用词分词模块, 用于根据预设的停用词表对所述若干初步分词结果进行去停用词, 以得到所述待提取 景区评论文本的若干分词结果。 7.根据权利要求5所述的景区评论关键词提取的方法, 其特征在于, 所述相似度计算模权 利 要 求 书 1/2 页 2 CN 115391491 A 2块包括: 余弦相似度计算模块, 用于分别计算所述第 一词向量与 各个所述第 二词向量的余弦相 似度; 余弦距离计算模块, 用于分别计算各个所述第二词向量之间的余弦距离; 权重值计算模块, 用于将所述余弦相似度和所述余弦距离输入加权公式, 计算得到各 个所述候选关键词对应的权 重; 所述加权公式表示为: 权重值=α*余弦相似度+(1 ‑α )*余弦距离, α∈[0,1]排序模块, 用于根据所述权 重值大小 进行排序。权 利 要 求 书 2/2 页 3 CN 115391491 A 3

PDF文档 专利 一种景区评论关键词提取的方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种景区评论关键词提取的方法及系统 第 1 页 专利 一种景区评论关键词提取的方法及系统 第 2 页 专利 一种景区评论关键词提取的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。