iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210883645.9 (22)申请日 2022.07.26 (71)申请人 中国人民解 放军战略支援 部队信息 工程大学 地址 450000 河南省郑州市高新区科 学大 道62号 (72)发明人 李珠峰 刘铄 周刚 卢记仓 胡学先 兰明敬 王婧 张凯翔 张凤娟 陈静 夏毅 (74)专利代理 机构 郑州大通专利商标代理有限 公司 41111 专利代理师 张立强 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/30(2020.01)G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种对短文本中领域信息进行挖掘并显示 表征的方法及装置 (57)摘要 本发明公开一种对短文本中领域信息进行 挖掘并显示表征的方法及装置, 该方法包括: 对 百科知识进行领域划分, 依据划分结果和网络爬 虫为每个领域收集领域关键词, 构建成领域词 典, 并对每个领域词典进行去重处理; 对领域词 典中的每个关键词的词典频率进行计算并进行 标注; 对待处理的短文本进行分词, 并依据停用 词表去除分词结果中的停用词, 得到待计算的特 征词; 将每个特征词视为一个局部, 依据其词典 频率值进行局部的领域贡献度的计算; 结合每个 特征词的局部领域贡献度, 综合得出整个短文本 的领域得分, 并对齐进行排序和筛选, 返回短文 本所对应的领域。 本发明可以在不对基于深度学 习框架的任务模型进行改动的同时提升该模型 的整体性能。 权利要求书3页 说明书8页 附图1页 CN 115310422 A 2022.11.08 CN 115310422 A 1.一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 包括: 步骤1: 对百科知识进行领域划分, 依据划分结果和网络爬虫为每个领域收集领域关键 词, 构建成领域词典, 并对每 个领域词典进行去重处 理; 步骤2: 对领域词典中的每个关键词的词典频率进行计算并进行标注, 所述词典频率指 每个关键词对应的词典个数; 步骤3: 对待处理的短文本进行分词, 并依据停用词表去除分词结果中的停用词, 得到 待计算的特 征词; 步骤4: 将每个特征词视为一个局部, 依据其词典频率值进行局部的领域贡献度的计 算; 步骤5: 结合每个特征词的局部领域贡献度, 综合得出整个短文本的领域得分, 并对齐 进行排序和筛 选, 返回短文本所对应的领域。 2.根据权利要求1所述的一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 所述 步骤4包括: 将每个特征词视为一个局部, 依据朴素贝叶斯对先验信 息和样本信 息对局部的领域贡 献度P(Bi|aj)进行建模: 其中P(aj)是一个常数, 表示 边缘概率, 故有: 其中P(Bi)为先验概 率, 表示随机 选中一个领域的概 率, 用公式(3)进行计算: 其中Count(Bi)表示文本中涉及到领域Bi的特征词数量; 最后用C(aj,Bi)代替公式(1)中的P(aj|Bi)表示特征词aj对领域Bi的贡献度, C(aj,Bi)用 公式(4)进行计算: 其中, df(aj)表示特征词aj的词典频率。 3.根据权利要求2所述的一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 所述 步骤5包括: 基于每个特征词的词典频率计算该 特征词的流行度: 权 利 要 求 书 1/3 页 2 CN 115310422 A 2基于 及该特征词的局部领域贡献度计算每个领域的得分, 基于每个领域的得分进行 排序, 得到如下整体建模: 其中 表示领域Bi的得分; Select()是用来对领域进行筛选的方法; P(Bi|aj)为特征 词aj对领域Bi的局部领域贡献度; α 为常数, 用于进行平滑 处理; n表示短文本中特征词的数 量; σ 为标准差, 用于对经过排序的分数 进行衡量; xi表示第i个样本, 即 μ表示所有 的平均值; N表示 的个数; 最后依据整体建模对每个特征词的局部贡献度进行整合与选择, 最后返回F( A)的领 域。 4.一种对短文本中领域信息进行挖掘并显示表征的装置, 其特 征在于, 包括: 领域词典构建模块, 用于对百科知识进行领域划分, 依据划分结果和网络爬虫为每个 领域收集领域关键词, 构建成领域词典, 并对每 个领域词典进行去重处 理; 词典频率计算模块, 用于对领域词典中的每个关键词的词典频率进行计算并进行标 注, 所述词典频率指每 个关键词对应的词典个数; 短文本处理模块, 用于对待处理的短文本进行分词, 并依据停用词表去 除分词结果中 的停用词, 得到待计算的特 征词; 局部领域贡献度计算模块, 用于将每个特征词视为一个局部, 依据其词典频率值进行 局部的领域贡献度的计算; 领域得出模块, 用于结合每个特征词的局部领域贡献度, 综合得出整个短文本的领域 得分, 并对齐进行排序和筛 选, 返回短文本所对应的领域。 5.根据权利要求4所述的一种对短文本中领域信息进行挖掘并显示表征的装置, 其特 征在于, 所述局部领域贡献度计算模块具体用于: 将每个特征词视为一个局部, 依据朴素贝叶斯对先验信 息和样本信 息对局部的领域贡 献度P(Bi|aj)进行建模: 其中P(aj)是一个常数, 表示 边缘概率, 故有: 其中P(Bi)为先验概 率, 表示随机 选中一个领域的概 率, 用公式(3)进行计算:权 利 要 求 书 2/3 页 3 CN 115310422 A 3
专利 一种对短文本中领域信息进行挖掘并显示表征的方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:28
上传分享
举报
下载
原文档
(914.2 KB)
分享
友情链接
GB-T 39989-2021 超弹性钛镍形状记忆合金棒材和丝材.pdf
信通院 数据清洗、去标识化、匿名化业务规程 试行.pdf
信通院 白皮书-移动应用-App数据安全与个人信息保护白皮书-1225.pdf
GB-T 21604-2022 化学品 急性皮肤刺激性-腐蚀性试验方法.pdf
MZ-T 158-2020 固定在座便器上的助力扶手.pdf
GB-T 12924-2008 船舶工艺术语 船体建造和安装工艺.pdf
阿里云 专有云企业版 云平台 同城容灾用户指南 2022.pdf
T-BSRS 052—2021 核技术利用单位辐射事故应急预案的格式和内容.pdf
GB-T 26471-2023 塔式起重机 安装、拆卸与爬升规则.pdf
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
GB-T 1470-2014 铅及铅锑合金板.pdf
GB/T 39188-2020 电动门窗通用技术要求.pdf
GB-T 17714-2022 啤酒桶质量通则.pdf
JR-T0223-2021 金融数据安全 数据生命周期安全规范.pdf
T-YAIMH 002—2022 互联网诊疗电子病历基本规范.pdf
DB52-T 1656-2022 磷石膏抹灰砂浆通用技术要求 贵州省.pdf
GB-T 43269-2023 信息安全技术 网络安全应急能力评估准则.pdf
NY-T 3223-2018 日光温室设计规范.pdf
NIST.信息安全人才框架(NCWF).中文.v2.0 .pdf
ISO 27701-2019 隐私信息管理体系要求中文版.pdf
1
/
13
评价文档
赞助3元 点击下载(914.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。