iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211235882.0 (22)申请日 2022.10.10 (71)申请人 上海瀛数信息科技有限公司 地址 200081 上海市虹口区东体 育会路10 0 弄1号1404室 (72)发明人 闵宗茹 陈曲 王心丹 沈池花  巨星海 池淏 罗向阳 卢记仓  刘錞 谭江浩  (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种窗口相似度分析的关注点变化预测框 架及其分析方法 (57)摘要 本发明公开了一种窗口相似度分析的关注 点变化预测框架及其分析方法, 涉及网络论坛分 析技术领域, 在提出的基于长短时间窗口相似度 分析的关注 点变化预测框架 基础上, 给出了基于 两类典型模型的5种关注点变化预测方法, 并分 析了基于关注点变化规律 以及不同情况下的预 测方法选择问题, 本发明通过基于所提方法, 在 真实数据上进行了大量的实验测试与分析, 验证 了所提预测分析框架和实现方法的有效性, 同 时, 基于测试结果的分析, 为预测方法中的样本 构建、 关注点变化规律的发现以及预测方法选 择, 提供了一种指导 性分析方法。 权利要求书6页 说明书9页 附图6页 CN 115544361 A 2022.12.30 CN 115544361 A 1.一种窗口相似度分析的关注点变化预测框架, 其特征在于, 在提出的基于长短时间 窗口相似度分析 的关注点变化预测框架基础上, 给出了基于两类典型模型 的5种关注点变 化预测方法, 并分析了基于关注点变化规律以及不同情况下 的预测方法选择问题, 包括以 下五个部分: (一)、 基于 长短时间窗口相似度的关注点变化预测框架; (二)、 基于关键词序列的关注点抽取及向量表示; (三)、 2种基于传统序列分析算法的关注点变化预测分析 方法; (四)、 3种基于深度学习模型的关注点变化预测分析 方法; (五)、 关注点变化 规律以及不同情况 下的预测分析 方法选择问题。 2.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架, 其特征在于, 所 述基于长短时间窗口相似度的关注点变化预测框架; 网络论坛关注点预测是网络舆情分析的一个子任务, 其核心是从论坛用户的言论、 贴 文等信息中, 抽取出针对特定主题或话题的描述与表示, 可以是句子、 短语或词语序列, 进 而可从社交文本中提取特征, 由于网络论坛的复杂性和自由性, 同一时期或时刻往往涉及 多个主题或话题, 那么, 使用词语序列将更能较为 客观全面 地反映论坛用户的关注点。 针对网络论坛关注点变化的预测分析, 本发明研究提出了如下分析思路及基本框架: 首先, 确定长时间窗口和短时间窗口的划分与设置; 然后, 分别对两类窗口内的贴文提取其 关注点; 其次, 计算两类窗口关注 点的相似度, 并获得相似度变化序列; 最后, 选择基于传统 序列分析或深度学习等模型 的预测分析方法, 训练学习相应的预测模型, 并对未来关注点 的变化进 行预测, 进而分析得到网络论坛关注点的潜在变化规律, 相关结果可为参数配置、 预测分析 方法选择等 提供参考, 其关注点变化预测框架可分以下七个步骤实现: 步骤一: 参数初始化; 根据 前述分析, 网络论坛关注点的变化在一段时间内通常是具有 一定变化规律的, 在分析其可能的变化规律时, 所获取数据应尽量覆盖相对应时间段, 保持 变化规律的完整性, 因此, 网络论坛数据采样后, 第一步应设定能够反映关注 点变化规律的 长时间窗口及其滑动步长、 短时间窗口及其滑动步长, 其中, 滑动步长是在当前窗口数据采 样分析结束后, 如何确定下一窗口数据样本, 经过上述处理, 即可获得一段时间内的长时间 窗口序列以及每 个长时间窗口内的短时间窗口序列; 步骤二: 文本分词; 网络论坛中, 每一个贴文通常包括标题及内容, 其中, 内容可能涉及 文本、 图像、 音频等, 在分词前, 为了保持贴文语义的完整性, 应将图像、 音频等识别转化成 文本, 并与原文本内容合并, 作为该贴文的完整描述, 然后, 采用jieba或百度API等经典工 具或模型, 对其进行分词处 理; 步骤三: 长时间窗口关注点提取。 针对每个长时间窗口内的所有贴文, 基于第 二步的分 词结果, 采用如TF ‑IDF或其改进算法等, 对长时间窗口内所有关键词进行重要性排序, 然 后, 从中选取最重要的部分关键词, 如重要性度量值最大的前10、 20或30个关键词, 构成关 键词序列, 作为该长时间窗口 的关注点; 步骤四: 短时间窗口关注点提取; 针对每个短时间窗口内的所有贴文, 与第三步类似, 基于第二步的分词结果, 采用TF ‑IDF或其改进算法等, 对短时间窗口内所有关键词进行重 要性排序, 然后, 从中选取最重要的部分关键词, 如重要性度量值最大的前10、 20或30个关 键词, 构成关键词序列, 作为该短时间窗口 的关注点;权 利 要 求 书 1/6 页 2 CN 115544361 A 2步骤五: 关注点相似度计算; 对于每个长时间窗口, 采用传统的SimHash及其改进算法 或近年流行的词向量表示与对比分析算法等, 计算其中每个短时间窗口关注点与所在长时 间窗口关注点的相似度, 获取 该长时间窗口内随时序变化的关注点相似度 序列; 步骤六: 关注点相似度变化预测模型训练及应用; 针对第 一步获得的长时间窗口序列, 将前面一部分, 如80%的长时间窗口中, 各短时间窗口与其所在长时间窗口的关注点相似 度作为已知序列, 即训练样本集, 将剩下部分, 即20%的长时间窗口中, 短时间窗口与其所 在长时间窗口的关注点相似度作为未知序列, 即待 预测的测试样本集; 然后, 根据论坛关注 点数据特性, 采用如自回归求和移动平均、 SVR等传统序列分析模型或卷积神经网络、 长短 期记忆网络、 Transformer 等深度学习模 型, 训练相应的预测模 型; 最后, 对短时间窗口与其 所在长时间窗口 的关注点相似度的未来变化趋势进行 预测分析; 步骤七: 关注点变化规律分析; 通过对比第一步中不同参数配置情况下的预测结果, 分 析研究论坛关注点变化的一般演化规律以及准确研判方法, 为进一步的舆情导控等提供参 考, 比如: 对于1月、 2月两种长时间窗口, 分析各长时间窗口下的1天、 2天两种短时间窗口, 所有长短时间窗口的滑动步长均为 1, 可得四种情况的参数配置, 那么第六步也将得到对应 的4个预测结果, 如果其中长时间窗口为2月及其短时间窗口为2天的预测结果准确率最高, 表明相对于其他参数配置的情况, 这种情况下的参数设置更能够较为全面地反映论坛关注 点的一般演化 规律, 对现实舆情分析应用将更 具参考价值。 3.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架, 其特征在于, 基 于关键词序列的关注点抽取及向量表示; 为了能够更为客观全面地反映网络论坛用户的关注点, 本发明提出了基于关键词序列 的描述方法, 并采用分词、 词语重要性排序、 关键词选取等步骤来 实现, 对于中文文本, 目前 公认效果较好的工具为jieba分词, 在众多自然语言处理任务中发挥了重要支撑作用, jieba分词的基本思想是基于隐马尔可夫模型方法, 寻找最合适的词语序列; HMM将每个中 文词汇标记为四个状态的组合: 词首B、 词中M、 词尾E以及单字成词S, 如: “北京”标记为 “BE”, 即“北/B京/E ”;“联合国”标记为“BME”, 即“联/B合/M国/E ”;“人”标记为“S”, 即“人/ S”; 等; HMM的核心是找到一个最佳的状态序列, 即联合概率最大的状态序列, 联合概率的计 算表达式如下 所示: 其中X为观测序列, 即待分词的句子, Y为隐状态序列, 即各词 汇对应的可能状态序列, T 表示状态序列的长度。 基于上述分词结果, 采用TF ‑IDF算法抽取关键词; 这是一种无监督学习算法, 其主要思 想是对于一个文档集合, 度量给定词语在少数文档中反复出现的程度, 将其作为该给定词 语的重要性指标。 整个算法可分为两部分: 词频TF和逆文档 频数IDF; 一个文档即对应一个 贴文, 文档集合对于长时间窗口为该长时间跨度内的所有贴文集合, 对于短时间窗口为该 短时间跨度内的所有贴文集合; 然后, 假设贴文集合共包含N篇贴文, fi表示词项i在贴文集 合中出现的频率, 则词频TFi为: 权 利 要 求 书 2/6 页 3 CN 115544361 A 3

PDF文档 专利 一种窗口相似度分析的关注点变化预测框架及其分析方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种窗口相似度分析的关注点变化预测框架及其分析方法 第 1 页 专利 一种窗口相似度分析的关注点变化预测框架及其分析方法 第 2 页 专利 一种窗口相似度分析的关注点变化预测框架及其分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。