iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210883645.9 (22)申请日 2022.07.26 (71)申请人 中国人民解 放军战略支援 部队信息 工程大学 地址 450000 河南省郑州市高新区科 学大 道62号 (72)发明人 李珠峰 刘铄 周刚 卢记仓  胡学先 兰明敬 王婧 张凯翔  张凤娟 陈静 夏毅  (74)专利代理 机构 郑州大通专利商标代理有限 公司 41111 专利代理师 张立强 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/30(2020.01)G06F 40/242(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 一种对短文本中领域信息进行挖掘并显示 表征的方法及装置 (57)摘要 本发明公开一种对短文本中领域信息进行 挖掘并显示表征的方法及装置, 该方法包括: 对 百科知识进行领域划分, 依据划分结果和网络爬 虫为每个领域收集领域关键词, 构建成领域词 典, 并对每个领域词典进行去重处理; 对领域词 典中的每个关键词的词典频率进行计算并进行 标注; 对待处理的短文本进行分词, 并依据停用 词表去除分词结果中的停用词, 得到待计算的特 征词; 将每个特征词视为一个局部, 依据其词典 频率值进行局部的领域贡献度的计算; 结合每个 特征词的局部领域贡献度, 综合得出整个短文本 的领域得分, 并对齐进行排序和筛选, 返回短文 本所对应的领域。 本发明可以在不对基于深度学 习框架的任务模型进行改动的同时提升该模型 的整体性能。 权利要求书3页 说明书8页 附图1页 CN 115310422 A 2022.11.08 CN 115310422 A 1.一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 包括: 步骤1: 对百科知识进行领域划分, 依据划分结果和网络爬虫为每个领域收集领域关键 词, 构建成领域词典, 并对每 个领域词典进行去重处 理; 步骤2: 对领域词典中的每个关键词的词典频率进行计算并进行标注, 所述词典频率指 每个关键词对应的词典个数; 步骤3: 对待处理的短文本进行分词, 并依据停用词表去除分词结果中的停用词, 得到 待计算的特 征词; 步骤4: 将每个特征词视为一个局部, 依据其词典频率值进行局部的领域贡献度的计 算; 步骤5: 结合每个特征词的局部领域贡献度, 综合得出整个短文本的领域得分, 并对齐 进行排序和筛 选, 返回短文本所对应的领域。 2.根据权利要求1所述的一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 所述 步骤4包括: 将每个特征词视为一个局部, 依据朴素贝叶斯对先验信 息和样本信 息对局部的领域贡 献度P(Bi|aj)进行建模: 其中P(aj)是一个常数, 表示 边缘概率, 故有: 其中P(Bi)为先验概 率, 表示随机 选中一个领域的概 率, 用公式(3)进行计算: 其中Count(Bi)表示文本中涉及到领域Bi的特征词数量; 最后用C(aj,Bi)代替公式(1)中的P(aj|Bi)表示特征词aj对领域Bi的贡献度, C(aj,Bi)用 公式(4)进行计算: 其中, df(aj)表示特征词aj的词典频率。 3.根据权利要求2所述的一种对短文本中领域信息进行挖掘并显示表征的方法, 其特 征在于, 所述 步骤5包括: 基于每个特征词的词典频率计算该 特征词的流行度: 权 利 要 求 书 1/3 页 2 CN 115310422 A 2基于 及该特征词的局部领域贡献度计算每个领域的得分, 基于每个领域的得分进行 排序, 得到如下整体建模: 其中 表示领域Bi的得分; Select()是用来对领域进行筛选的方法; P(Bi|aj)为特征 词aj对领域Bi的局部领域贡献度; α 为常数, 用于进行平滑 处理; n表示短文本中特征词的数 量; σ 为标准差, 用于对经过排序的分数 进行衡量; xi表示第i个样本, 即 μ表示所有 的平均值; N表示 的个数; 最后依据整体建模对每个特征词的局部贡献度进行整合与选择, 最后返回F( A)的领 域。 4.一种对短文本中领域信息进行挖掘并显示表征的装置, 其特 征在于, 包括: 领域词典构建模块, 用于对百科知识进行领域划分, 依据划分结果和网络爬虫为每个 领域收集领域关键词, 构建成领域词典, 并对每 个领域词典进行去重处 理; 词典频率计算模块, 用于对领域词典中的每个关键词的词典频率进行计算并进行标 注, 所述词典频率指每 个关键词对应的词典个数; 短文本处理模块, 用于对待处理的短文本进行分词, 并依据停用词表去 除分词结果中 的停用词, 得到待计算的特 征词; 局部领域贡献度计算模块, 用于将每个特征词视为一个局部, 依据其词典频率值进行 局部的领域贡献度的计算; 领域得出模块, 用于结合每个特征词的局部领域贡献度, 综合得出整个短文本的领域 得分, 并对齐进行排序和筛 选, 返回短文本所对应的领域。 5.根据权利要求4所述的一种对短文本中领域信息进行挖掘并显示表征的装置, 其特 征在于, 所述局部领域贡献度计算模块具体用于: 将每个特征词视为一个局部, 依据朴素贝叶斯对先验信 息和样本信 息对局部的领域贡 献度P(Bi|aj)进行建模: 其中P(aj)是一个常数, 表示 边缘概率, 故有: 其中P(Bi)为先验概 率, 表示随机 选中一个领域的概 率, 用公式(3)进行计算:权 利 要 求 书 2/3 页 3 CN 115310422 A 3

PDF文档 专利 一种对短文本中领域信息进行挖掘并显示表征的方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种对短文本中领域信息进行挖掘并显示表征的方法及装置 第 1 页 专利 一种对短文本中领域信息进行挖掘并显示表征的方法及装置 第 2 页 专利 一种对短文本中领域信息进行挖掘并显示表征的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。