iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211246647.3 (22)申请日 2022.10.12 (71)申请人 天津海量信息技 术股份有限公司 地址 300450 天津市滨 海新区华苑产业区 榕苑路1号B北32 2-323室 (72)发明人 郝静 (74)专利代理 机构 合肥昕华汇联专利代理事务 所(普通合伙) 34176 专利代理师 祁娜 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 微博数据正负面识别方法 (57)摘要 本发明公开了微博数据正负面识别方法, 包 括以下步骤: S1、 预处理; S2、 文本分词; S3、 训练 词向量; S4、 生成字向量矩阵; S5、 生成词向量矩 阵; S6、 生成字向量与词向量拼接矩阵; S7、 获得 识别结果。 本发明通过先将微博杂质文本过滤, 避免无效语句影 响模型效果, 同时使用了海量分 词, 对文本进行分析并对特殊词进行归一化处 理, 减少对模型的影响, 同时使用了bert模型和 word2vec模型, 融合了bert模型基于句子的字向 量表示和基于上下文的词向量表 示, 丰富了文本 的特征表示, 由此作为text cnn深度学习模型, 训 练出的准确率更高, 从而实现了可以高效并准确 识别短文本情感的正负面。 权利要求书1页 说明书3页 附图1页 CN 115544255 A 2022.12.30 CN 115544255 A 1.微博数据正负面识别方法, 其特 征在于: 包括以下步骤: S1、 预处理: 去除微博短文本中的杂质语句; S2、 文本分词: 通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词归一 化处理; S3、 训练词向量: 将步骤S2中完成分词归一化处理后的训练语料使用word2vec模型训 练词向量; S4、 生成字向量矩阵: 加载谷歌预训练的bert模型, 将步骤S1中过滤杂质语句后的短文 本转成字向量矩阵; S5、 生成词向量矩阵: 将步骤S3中训练好的词向量 转化成词向量矩阵; S6、 生成字向量与词向量拼接矩阵: 将步骤S4中的字向量矩阵与步骤S5中的词向量矩 阵进行拼接, 并活动字向量矩阵与词向量矩阵的拼接矩阵; S7、 获得识别结果: 将步骤S6中的生成的拼接矩阵作为textcnn深度学习模型训练的输 入训练模型, 并计训练出最优 模型, 得到数据正负面的分类结果。 2.根据权利要求1所述的微博数据正负面识别方法, 其特征在于: 所述步骤S1中杂质语 句包括但不限于常用的表情符号、 转发和话题的无效信息内容。 3.根据权利要求1所述的微博数据正负面识别方法, 其特征在于: 所述步骤S2中海量分 词算法是由通过结合人民日报以及互联网文本收集加人工整理的专用词知识, 使用开源 trie树算法实现快速知识的扫描匹配, 并结合H MM和Viterbi双重算法组成。 4.根据权利要求1所述的微博数据正负面识别方法, 其特征在于: 所述步骤S2中海量分 词算法提取出短文本中的时间、 地点、 数量词、 人名、 机构名、 停用词和标点符号使用归一化 处理, 并将上述专有词汇统一映射成T IME_HY、 L OC_HY、 NUM_HY、 NA ME_HY、 ORG_HY、 S TOP_HY和 PUNC_HY的训练语料。 5.根据权利要求1所述的微博数据正负面识别方法, 其特征在于: 所述步骤S7中 textcnn深度学习模型 结构包括输入层、 卷积层、 池化层和全连接层。权 利 要 求 书 1/1 页 2 CN 115544255 A 2微博数据正负面 识别方法 技术领域 [0001]本发明涉及数据处 理技术领域, 具体为 微博数据正负面识别方法。 背景技术 [0002]21世纪以来, 随着网络的普及, 人们也愿意在微博等一些短文本平台上发表与交 流自己的观点, 因此短文本的情感正负面识别的研究变得尤为重要。 目前现有的短文分类 主要有两种, 基于规则的方式和基于深度学习的方式。 [0003]基于规则方式, 需要人工收录情感, 构建情感词典, 根据文本中出现的情感词来进 行特征提取, 并计算 正负面结果。 [0004]基于深度学习的文本分类方法, 先使用one ‑hot、 word2vec等方式做词嵌入, 将文 本表示成向量, 再通过CNN/RNN/LSTM等深度学习模型自动获取特征表达方式, 实现情感正 负面分类。 [0005]但是现有技 术在实际使用时: [0006]基于规则的方法灵活性较差, 由于网络语言普及, 新型词汇层出不穷, 需要人工做 大量工作收录情感知识, 比较 被动; [0007]基于深度学习的方法中: one ‑hot方式生成的向量维度过大且稀疏, 容易在 计算过 程中爆炸, 且没有结合上 下文, 导致短文本的表达效果 不理想; [0008]word2vec虽然结合了上下文, 但由于受限于训练时上下文滑窗口长度大小, 导致 无法理解整句中所有词的相关性, 也使得短文本表达效果 欠佳。 [0009]因此上述基于规则的方式和基于深度学习的方式均无法高效准确地对短文本的 情感进行正负面识别。 发明内容 [0010]本发明的目的在于提供微博数据正负面识别方法, 以解决基于规则的方式和基于 深度学习的方式均无法高效准确地对短文本的情感进行正负面识别的问题。 [0011]为实现上述目的, 本发明提供如下技 术方案: 包括以下步骤: [0012]S1、 预处理: 去除微博短文本中的杂质语句; [0013]S2、 文本分词: 通过海量分词算法对步骤S1中去除杂质语句后的短文本进行分词 归一化处理; [0014]S3、 训练词向量: 将步骤S2中完成分词归一化处理后的训练语料使用word2vec模 型训练词向量; [0015]S4、 生成字向量矩阵: 加载谷歌预训练的bert模型, 将步骤S1中过滤杂质语句 后的 短文本转成字向量矩阵; [0016]S5、 生成词向量矩阵: 将步骤S3中训练好的词向量 转化成词向量矩阵; [0017]S6、 生成字向量与词向量拼接矩阵: 将步骤S4中的字向量矩阵与步骤S5中的词向 量矩阵进行拼接, 并活动字向量矩阵与词向量矩阵的拼接矩阵;说 明 书 1/3 页 3 CN 115544255 A 3
专利 微博数据正负面识别方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 02:14:55
上传分享
举报
下载
原文档
(327.2 KB)
分享
友情链接
中国移动研究院 5G基站节能技术白皮书 2020.pdf
NB-T 10639—2021 风电场工程场址选择技术规范.pdf
GB-T 20518-2018 信息安全技术 公钥基础设施 数字证书格式.pdf
GB 38031-2020 电动汽车用动力蓄电池安全要求.pdf
T-CSAE 79—2018 能量回馈式汽车液压防抱死制动系统 性能要求及试验方法.pdf
GB-T 15552-2015 丝织物试验方法和检验规则.pdf
ISO IEC 5394 2024 Information technology — Criteria for concept systems.pdf
GB-T 10233-2016 低压成套开关设备和电控设备基本试验方法.pdf
T-ZZB 0604—2018 野营用户外折叠椅.pdf
T-CEC 5080—2022 户用光伏发电系统安装调试与验收规范.pdf
T-CSTM 00373—2023 压力式中空纤维膜组件.pdf
奇安信 冬奥安全体系建设分享与思路拓展 .pdf
GB-T 28463-2012 纺织品 装饰用涂层织物.pdf
SY-T 7657.4-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第4部分:燃料电池法测定氢含量.pdf
GB-T 19713-2005 信息技术 安全技术 公钥基础设施 在线证书状态协议.pdf
GB-T 15843.4-2008 信息技术 安全技术 实体鉴别 第4部分 采用密码校验函数的机制.pdf
DB65-T 4536.7—2022 电子政务外网建设规范第7部分:政务云安全要求 新疆维吾尔自治区.pdf
NY-T 848-2004 蔬菜产地环境技术条件.pdf
GB-T 18837-2015 多联式空调 热泵 机组.pdf
GB-T 7965-2002 声学 水声换能器测量.pdf
1
/
3
6
评价文档
赞助3元 点击下载(327.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。