(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211235882.0
(22)申请日 2022.10.10
(71)申请人 上海瀛数信息科技有限公司
地址 200081 上海市虹口区东体 育会路10 0
弄1号1404室
(72)发明人 闵宗茹 陈曲 王心丹 沈池花
巨星海 池淏 罗向阳 卢记仓
刘錞 谭江浩
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/9536(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种窗口相似度分析的关注点变化预测框
架及其分析方法
(57)摘要
本发明公开了一种窗口相似度分析的关注
点变化预测框架及其分析方法, 涉及网络论坛分
析技术领域, 在提出的基于长短时间窗口相似度
分析的关注 点变化预测框架 基础上, 给出了基于
两类典型模型的5种关注点变化预测方法, 并分
析了基于关注点变化规律 以及不同情况下的预
测方法选择问题, 本发明通过基于所提方法, 在
真实数据上进行了大量的实验测试与分析, 验证
了所提预测分析框架和实现方法的有效性, 同
时, 基于测试结果的分析, 为预测方法中的样本
构建、 关注点变化规律的发现以及预测方法选
择, 提供了一种指导 性分析方法。
权利要求书6页 说明书9页 附图6页
CN 115544361 A
2022.12.30
CN 115544361 A
1.一种窗口相似度分析的关注点变化预测框架, 其特征在于, 在提出的基于长短时间
窗口相似度分析 的关注点变化预测框架基础上, 给出了基于两类典型模型 的5种关注点变
化预测方法, 并分析了基于关注点变化规律以及不同情况下 的预测方法选择问题, 包括以
下五个部分:
(一)、 基于 长短时间窗口相似度的关注点变化预测框架;
(二)、 基于关键词序列的关注点抽取及向量表示;
(三)、 2种基于传统序列分析算法的关注点变化预测分析 方法;
(四)、 3种基于深度学习模型的关注点变化预测分析 方法;
(五)、 关注点变化 规律以及不同情况 下的预测分析 方法选择问题。
2.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架, 其特征在于, 所
述基于长短时间窗口相似度的关注点变化预测框架;
网络论坛关注点预测是网络舆情分析的一个子任务, 其核心是从论坛用户的言论、 贴
文等信息中, 抽取出针对特定主题或话题的描述与表示, 可以是句子、 短语或词语序列, 进
而可从社交文本中提取特征, 由于网络论坛的复杂性和自由性, 同一时期或时刻往往涉及
多个主题或话题, 那么, 使用词语序列将更能较为 客观全面 地反映论坛用户的关注点。
针对网络论坛关注点变化的预测分析, 本发明研究提出了如下分析思路及基本框架:
首先, 确定长时间窗口和短时间窗口的划分与设置; 然后, 分别对两类窗口内的贴文提取其
关注点; 其次, 计算两类窗口关注 点的相似度, 并获得相似度变化序列; 最后, 选择基于传统
序列分析或深度学习等模型 的预测分析方法, 训练学习相应的预测模型, 并对未来关注点
的变化进 行预测, 进而分析得到网络论坛关注点的潜在变化规律, 相关结果可为参数配置、
预测分析 方法选择等 提供参考, 其关注点变化预测框架可分以下七个步骤实现:
步骤一: 参数初始化; 根据 前述分析, 网络论坛关注点的变化在一段时间内通常是具有
一定变化规律的, 在分析其可能的变化规律时, 所获取数据应尽量覆盖相对应时间段, 保持
变化规律的完整性, 因此, 网络论坛数据采样后, 第一步应设定能够反映关注 点变化规律的
长时间窗口及其滑动步长、 短时间窗口及其滑动步长, 其中, 滑动步长是在当前窗口数据采
样分析结束后, 如何确定下一窗口数据样本, 经过上述处理, 即可获得一段时间内的长时间
窗口序列以及每 个长时间窗口内的短时间窗口序列;
步骤二: 文本分词; 网络论坛中, 每一个贴文通常包括标题及内容, 其中, 内容可能涉及
文本、 图像、 音频等, 在分词前, 为了保持贴文语义的完整性, 应将图像、 音频等识别转化成
文本, 并与原文本内容合并, 作为该贴文的完整描述, 然后, 采用jieba或百度API等经典工
具或模型, 对其进行分词处 理;
步骤三: 长时间窗口关注点提取。 针对每个长时间窗口内的所有贴文, 基于第 二步的分
词结果, 采用如TF ‑IDF或其改进算法等, 对长时间窗口内所有关键词进行重要性排序, 然
后, 从中选取最重要的部分关键词, 如重要性度量值最大的前10、 20或30个关键词, 构成关
键词序列, 作为该长时间窗口 的关注点;
步骤四: 短时间窗口关注点提取; 针对每个短时间窗口内的所有贴文, 与第三步类似,
基于第二步的分词结果, 采用TF ‑IDF或其改进算法等, 对短时间窗口内所有关键词进行重
要性排序, 然后, 从中选取最重要的部分关键词, 如重要性度量值最大的前10、 20或30个关
键词, 构成关键词序列, 作为该短时间窗口 的关注点;权 利 要 求 书 1/6 页
2
CN 115544361 A
2步骤五: 关注点相似度计算; 对于每个长时间窗口, 采用传统的SimHash及其改进算法
或近年流行的词向量表示与对比分析算法等, 计算其中每个短时间窗口关注点与所在长时
间窗口关注点的相似度, 获取 该长时间窗口内随时序变化的关注点相似度 序列;
步骤六: 关注点相似度变化预测模型训练及应用; 针对第 一步获得的长时间窗口序列,
将前面一部分, 如80%的长时间窗口中, 各短时间窗口与其所在长时间窗口的关注点相似
度作为已知序列, 即训练样本集, 将剩下部分, 即20%的长时间窗口中, 短时间窗口与其所
在长时间窗口的关注点相似度作为未知序列, 即待 预测的测试样本集; 然后, 根据论坛关注
点数据特性, 采用如自回归求和移动平均、 SVR等传统序列分析模型或卷积神经网络、 长短
期记忆网络、 Transformer 等深度学习模 型, 训练相应的预测模 型; 最后, 对短时间窗口与其
所在长时间窗口 的关注点相似度的未来变化趋势进行 预测分析;
步骤七: 关注点变化规律分析; 通过对比第一步中不同参数配置情况下的预测结果, 分
析研究论坛关注点变化的一般演化规律以及准确研判方法, 为进一步的舆情导控等提供参
考, 比如: 对于1月、 2月两种长时间窗口, 分析各长时间窗口下的1天、 2天两种短时间窗口,
所有长短时间窗口的滑动步长均为 1, 可得四种情况的参数配置, 那么第六步也将得到对应
的4个预测结果, 如果其中长时间窗口为2月及其短时间窗口为2天的预测结果准确率最高,
表明相对于其他参数配置的情况, 这种情况下的参数设置更能够较为全面地反映论坛关注
点的一般演化 规律, 对现实舆情分析应用将更 具参考价值。
3.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架, 其特征在于, 基
于关键词序列的关注点抽取及向量表示;
为了能够更为客观全面地反映网络论坛用户的关注点, 本发明提出了基于关键词序列
的描述方法, 并采用分词、 词语重要性排序、 关键词选取等步骤来 实现, 对于中文文本, 目前
公认效果较好的工具为jieba分词, 在众多自然语言处理任务中发挥了重要支撑作用,
jieba分词的基本思想是基于隐马尔可夫模型方法, 寻找最合适的词语序列; HMM将每个中
文词汇标记为四个状态的组合: 词首B、 词中M、 词尾E以及单字成词S, 如: “北京”标记为
“BE”, 即“北/B京/E ”;“联合国”标记为“BME”, 即“联/B合/M国/E ”;“人”标记为“S”, 即“人/
S”; 等; HMM的核心是找到一个最佳的状态序列, 即联合概率最大的状态序列, 联合概率的计
算表达式如下 所示:
其中X为观测序列, 即待分词的句子, Y为隐状态序列, 即各词 汇对应的可能状态序列, T
表示状态序列的长度。
基于上述分词结果, 采用TF ‑IDF算法抽取关键词; 这是一种无监督学习算法, 其主要思
想是对于一个文档集合, 度量给定词语在少数文档中反复出现的程度, 将其作为该给定词
语的重要性指标。 整个算法可分为两部分: 词频TF和逆文档 频数IDF; 一个文档即对应一个
贴文, 文档集合对于长时间窗口为该长时间跨度内的所有贴文集合, 对于短时间窗口为该
短时间跨度内的所有贴文集合; 然后, 假设贴文集合共包含N篇贴文, fi表示词项i在贴文集
合中出现的频率, 则词频TFi为:
权 利 要 求 书 2/6 页
3
CN 115544361 A
3
专利 一种窗口相似度分析的关注点变化预测框架及其分析方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:39上传分享