iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114773.3 (22)申请日 2022.09.14 (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号 (72)发明人 黄罡 张颖 蔡思博 蔡华谦 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 苟冬梅 (51)Int.Cl. G06F 16/958(2019.01) G06F 40/194(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 面向接口迁移的相似语义主题的网页识别 方法、 装置和设备 (57)摘要 本发明提供了一种面向接口迁移的相似语 义主题网页识别方法、 装置和设备, 所述方法包 括: 获取待识别的两个网页的页面信息; 对所述 两个网页的页面信息进行预处理, 分别得到所述 两个网页的纯文本内容; 利用多种算法对所述纯 文本内容进行关键词提取; 将所述多个 关键词与 预定义主题词集合中的主题词进行匹配, 分别得 到两个网页的多个主题词, 将 两个网页各自的多 个主题词进行融合集成, 得到两个网页各自的主 题特征; 根据两个网页各自的语义主题特征, 判 断两个网页是否为相似网页。 本发 明通过预处理 减弱内容理解的噪声, 利用多种算法提取主题词 与集成匹配语义主题提升内容理解的覆盖面, 提 高相似网页识别的准确性, 进而支持 网页接口迁 移到相似网页。 权利要求书2页 说明书10页 附图4页 CN 115203620 A 2022.10.18 CN 115203620 A 1.一种面向接口迁移的相似语义主题网页识别方法, 其特 征在于, 包括: 获取待识别的两个网页的页面信息; 对所述两个网页的页面信息进行 预处理, 分别得到所述两个网页的纯文本内容; 利用多种算法对所述纯文本 内容进行关键词提取, 得到所述两个网页页面信 息各自对 应的多个关键词; 将所述多个关键词与 预定义主题词集合中的主题词进行匹配, 分别得到所述两个网页 的多个主题词, 将所述两个网页各自的多个主题词进行融合集成, 得到所述两个网页各自 的语义主题; 根据所述两个网页各自的语义主题, 判断所述两个网页是否为相似网页。 2.根据权利要求1所述的方法, 其特征在于, 对所述两个网页的页面信息进行预处理, 分别得到所述两个网页的纯文本内容, 包括: 去除所述网页中与语义内容无关的代码, 并从所述网页中提取 出文本内容; 对所述文本内容进行过滤处理, 去除所述文本内容中的无用内容, 得到纯文本内容, 其 中, 所述无用内容至少包括空格符。 3.根据权利要求1所述的方法, 其特征在于, 利用多种算法对所述纯文本内容进行关键 词提取, 得到所述两个网页 页面信息对应的多个关键词, 包括: 将所述纯文本 内容输入多个不同的关键词提取服务, 通过所述多个不同的关键词提取 服务提取所述纯文本内容中的关键词, 其中, 不同的关键词提取服务提取 的关键词不完全 相同。 4.根据权利要求1所述的方法, 其特征在于, 将所述多个关键词与预定义主题词集合中 的主题词进行匹配, 分别得到所述两个网页的多个主题词, 包括: 对所述关键词与所述主题词进行词向量 提取, 得到关键词向量和主题词向量; 根据所述关键词向量和所述主题词向量的余弦相似度, 选出与 所述关键词最相似的主 题词。 5.根据权利要求1所述的方法, 其特征在于, 针对所述两个网页中的每个网页, 将该网 页的多个主题词进行融合 集成, 得到该网页的语义主题, 包括: 采用投票法的集成策略, 将获得票数 前N的主题词作为该网页的语义主题。 6.根据权利要求1所述的方法, 其特征在于, 根据所述两个网页各自的语义主题, 判断 所述两个网页是否为相似网页, 包括: 若所述两个网页的语义主题存在交集, 则判定所述两个网页为相似网页。 7.根据权利要求1所述的方法, 其特征在于, 根据所述两个网页各自的语义主题, 判断 所述两个网页是否为相似网页, 所述方法还 包括: 获取所述两个网页各自的实现结构, 所述实现结构表征网页源代码的逻辑结构; 若所述两个网页的语义主题存在交集, 且所述两个网页的实现结构相似, 则判断所述 两个网页为相似网页。 8.一种面向接口迁移的相似语义主题网页识别装置, 其特 征在于, 所述装置包括: 信息获取模块: 用于获取待识别的两个网页的页面信息; 信息处理模块, 用于对所述两个网页的页面信息进行预处理, 分别得到所述两个网页 的纯文本内容;权 利 要 求 书 1/2 页 2 CN 115203620 A 2关键词提取模块, 用于利用多种算法对所述纯文本内容进行关键词提取, 得到所述两 个网页页面信息各自对应的多个关键词; 匹配融合模块, 用于将所述多个关键词与预定义主题词集合中的主题词进行匹配, 分 别得到所述两个网页的多个主题词, 将所述两个网页各自的多个主题词进行融合集成, 得 到所述两个网页各自的语义主题; 判断模块, 用于根据所述两个网页各自的语义主题, 判断所述两个网页是否为相似网 页。 9.根据权利要求8所述的装置, 其特 征在于, 所述信息处 理模块, 包括: 内容提取模块, 用于去 除所述网页中与语义内容无关的代码, 并从所述网页中提取出 文本内容; 内容过滤模块, 用于对所述文本内容进行过滤处理, 去除所述文本内容中的无用内容, 得到纯文本内容, 其中, 所述无用内容至少包括空格符。 10.一种电子设备, 其特征在于, 包括存储器、 处理器及存储在存储器上并可在处理器 上运行的计算机程序, 所述处理器执行时实现如权利要求1 ‑7任一所述的面向接口迁移的 相似语义主题的网页识别方法。权 利 要 求 书 2/2 页 3 CN 115203620 A 3
专利 面向接口迁移的相似语义主题的网页识别方法、装置和设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:51
上传分享
举报
下载
原文档
(557.0 KB)
分享
友情链接
阿里云 专有云企业版 云平台 混合云备份用户指南 2022.pdf
GB-T 41670-2022 安全与韧性 社区韧性 突发事件弱势群体救援指南 ISO 22395-2018.pdf
GB-T 16814-2008 同步数字体系 (SDH) 光缆线路系统测试方法.pdf
T-CECS G:D60-02—2023 公路超高性能混凝土 UHPC 桥梁技术规程.pdf
GM-T 0002-2012 SM4分组密码算法.pdf
GB-T 38540-2020 信息安全技术 安全电子签章密码技术规范.pdf
GB-T 13061-2017 商用车空气悬架用空气弹簧技术规范.pdf
GB-T 41783-2022 模块化数据中心通用规范.pdf
T-ACEF 060—2023 塑料包装替代材料 碳减排量核算准则.pdf
SN-T 5415.4-2022 输“一带一路”沿线国家产品安全项目检验指南 纺织品 第4部分:东南亚.pdf
T-ZZB 0659—2018 马丁代尔耐磨及起毛起球性能试验仪.pdf
DB34-T 3047-2017 普通干线公路施工标准化指南 安徽省.pdf
GB-T 13217.7-2023 油墨附着力检验方法.pdf
TC260 网络安全标准实践指南 -网络数据分类分级指引 2021.pdf
专利 一种高效汽车散热器.PDF
YD-T 2698-2014 电信网和互联网安全防护基线配置要求及检测要求 网络设备.pdf
GB-T 36478.2-2018 物联网 信息交换和共享 第2部分:通用技术要求.pdf
GB 25683-2010 钢液浇包 安全要求.pdf
GB-T 24421.3-2023 服务业组织标准化工作指南 第3部分:标准编制.pdf
GB-T 36441-2018 硬件产品与操作系统兼容性规范.pdf
1
/
17
评价文档
赞助3元 点击下载(557.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。