专利 一种窗口相似度分析的关注点变化预测框架及其分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211235882.0 (22)申请日 2022.10.10 (71)申请人上海瀛数信息科技有限公司地址 200081 上海市虹口区东体育会路10 0 弄1号1404室 (72)发明人闵宗茹　陈曲　王心丹　沈池花　巨星海　池淏　罗向阳　卢记仓　刘錞　谭江浩　 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种窗口相似度分析的关注点变化预测框架及其分析方法 (57)摘要本发明公开了一种窗口相似度分析的关注点变化预测框架及其分析方法，涉及网络论坛分析技术领域，在提出的基于长短时间窗口相似度分析的关注点变化预测框架基础上，给出了基于两类典型模型的5种关注点变化预测方法，并分析了基于关注点变化规律以及不同情况下的预测方法选择问题，本发明通过基于所提方法，在真实数据上进行了大量的实验测试与分析，验证了所提预测分析框架和实现方法的有效性，同时，基于测试结果的分析，为预测方法中的样本构建、关注点变化规律的发现以及预测方法选择，提供了一种指导性分析方法。权利要求书6页说明书9页附图6页 CN 115544361 A 2022.12.30 CN 115544361 A 1.一种窗口相似度分析的关注点变化预测框架，其特征在于，在提出的基于长短时间窗口相似度分析的关注点变化预测框架基础上，给出了基于两类典型模型的5种关注点变化预测方法，并分析了基于关注点变化规律以及不同情况下的预测方法选择问题，包括以下五个部分： (一)、基于长短时间窗口相似度的关注点变化预测框架； (二)、基于关键词序列的关注点抽取及向量表示； (三)、 2种基于传统序列分析算法的关注点变化预测分析方法； (四)、 3种基于深度学习模型的关注点变化预测分析方法； (五)、关注点变化规律以及不同情况下的预测分析方法选择问题。 2.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架，其特征在于，所述基于长短时间窗口相似度的关注点变化预测框架；网络论坛关注点预测是网络舆情分析的一个子任务，其核心是从论坛用户的言论、贴文等信息中，抽取出针对特定主题或话题的描述与表示，可以是句子、短语或词语序列，进而可从社交文本中提取特征，由于网络论坛的复杂性和自由性，同一时期或时刻往往涉及多个主题或话题，那么，使用词语序列将更能较为客观全面地反映论坛用户的关注点。针对网络论坛关注点变化的预测分析，本发明研究提出了如下分析思路及基本框架：首先，确定长时间窗口和短时间窗口的划分与设置；然后，分别对两类窗口内的贴文提取其关注点；其次，计算两类窗口关注点的相似度，并获得相似度变化序列；最后，选择基于传统序列分析或深度学习等模型的预测分析方法，训练学习相应的预测模型，并对未来关注点的变化进行预测，进而分析得到网络论坛关注点的潜在变化规律，相关结果可为参数配置、预测分析方法选择等提供参考，其关注点变化预测框架可分以下七个步骤实现：步骤一：参数初始化；根据前述分析，网络论坛关注点的变化在一段时间内通常是具有一定变化规律的，在分析其可能的变化规律时，所获取数据应尽量覆盖相对应时间段，保持变化规律的完整性，因此，网络论坛数据采样后，第一步应设定能够反映关注点变化规律的长时间窗口及其滑动步长、短时间窗口及其滑动步长，其中，滑动步长是在当前窗口数据采样分析结束后，如何确定下一窗口数据样本，经过上述处理，即可获得一段时间内的长时间窗口序列以及每个长时间窗口内的短时间窗口序列；步骤二：文本分词；网络论坛中，每一个贴文通常包括标题及内容，其中，内容可能涉及文本、图像、音频等，在分词前，为了保持贴文语义的完整性，应将图像、音频等识别转化成文本，并与原文本内容合并，作为该贴文的完整描述，然后，采用jieba或百度API等经典工具或模型，对其进行分词处理；步骤三：长时间窗口关注点提取。针对每个长时间窗口内的所有贴文，基于第二步的分词结果，采用如TF ‑IDF或其改进算法等，对长时间窗口内所有关键词进行重要性排序，然后，从中选取最重要的部分关键词，如重要性度量值最大的前10、 20或30个关键词，构成关键词序列，作为该长时间窗口的关注点；步骤四：短时间窗口关注点提取；针对每个短时间窗口内的所有贴文，与第三步类似，基于第二步的分词结果，采用TF ‑IDF或其改进算法等，对短时间窗口内所有关键词进行重要性排序，然后，从中选取最重要的部分关键词，如重要性度量值最大的前10、 20或30个关键词，构成关键词序列，作为该短时间窗口的关注点；权　利　要　求　书 1/6 页 2 CN 115544361 A 2步骤五：关注点相似度计算；对于每个长时间窗口，采用传统的SimHash及其改进算法或近年流行的词向量表示与对比分析算法等，计算其中每个短时间窗口关注点与所在长时间窗口关注点的相似度，获取该长时间窗口内随时序变化的关注点相似度序列；步骤六：关注点相似度变化预测模型训练及应用；针对第一步获得的长时间窗口序列，将前面一部分，如80％的长时间窗口中，各短时间窗口与其所在长时间窗口的关注点相似度作为已知序列，即训练样本集，将剩下部分，即20％的长时间窗口中，短时间窗口与其所在长时间窗口的关注点相似度作为未知序列，即待预测的测试样本集；然后，根据论坛关注点数据特性，采用如自回归求和移动平均、 SVR等传统序列分析模型或卷积神经网络、长短期记忆网络、 Transformer 等深度学习模型，训练相应的预测模型；最后，对短时间窗口与其所在长时间窗口的关注点相似度的未来变化趋势进行预测分析；步骤七：关注点变化规律分析；通过对比第一步中不同参数配置情况下的预测结果，分析研究论坛关注点变化的一般演化规律以及准确研判方法，为进一步的舆情导控等提供参考，比如：对于1月、 2月两种长时间窗口，分析各长时间窗口下的1天、 2天两种短时间窗口，所有长短时间窗口的滑动步长均为 1，可得四种情况的参数配置，那么第六步也将得到对应的4个预测结果，如果其中长时间窗口为2月及其短时间窗口为2天的预测结果准确率最高，表明相对于其他参数配置的情况，这种情况下的参数设置更能够较为全面地反映论坛关注点的一般演化规律，对现实舆情分析应用将更具参考价值。 3.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架，其特征在于，基于关键词序列的关注点抽取及向量表示；为了能够更为客观全面地反映网络论坛用户的关注点，本发明提出了基于关键词序列的描述方法，并采用分词、词语重要性排序、关键词选取等步骤来实现，对于中文文本，目前公认效果较好的工具为jieba分词，在众多自然语言处理任务中发挥了重要支撑作用， jieba分词的基本思想是基于隐马尔可夫模型方法，寻找最合适的词语序列； HMM将每个中文词汇标记为四个状态的组合：词首B、词中M、词尾E以及单字成词S，如： “北京”标记为 “BE”，即“北/B京/E ”；“联合国”标记为“BME”，即“联/B合/M国/E ”；“人”标记为“S”，即“人/ S”；等； HMM的核心是找到一个最佳的状态序列，即联合概率最大的状态序列，联合概率的计算表达式如下所示：其中X为观测序列，即待分词的句子， Y为隐状态序列，即各词汇对应的可能状态序列， T 表示状态序列的长度。基于上述分词结果，采用TF ‑IDF算法抽取关键词；这是一种无监督学习算法，其主要思想是对于一个文档集合，度量给定词语在少数文档中反复出现的程度，将其作为该给定词语的重要性指标。整个算法可分为两部分：词频TF和逆文档频数IDF；一个文档即对应一个贴文，文档集合对于长时间窗口为该长时间跨度内的所有贴文集合，对于短时间窗口为该短时间跨度内的所有贴文集合；然后，假设贴文集合共包含N篇贴文， fi表示词项i在贴文集合中出现的频率，则词频TFi为：权　利　要　求　书 2/6 页 3 CN 115544361 A 3

专利 一种窗口相似度分析的关注点变化预测框架及其分析方法

专利一种窗口相似度分析的关注点变化预测框架及其分析方法