iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211180208.7 (22)申请日 2022.09.27 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 费高雷 高隽逸 胡光岷 (74)专利代理 机构 成都虹盛汇泉专利代理有限 公司 51268 专利代理师 王伟 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) (54)发明名称 一种基于网页正文的人物属性 提取方法 (57)摘要 本发明公开了一种基于网页正文的人物属 性提取方法, 包括以下步骤: S1、 获取目标人物的 相关网页, 从 网页中提取出包含 人物属性信息的 正文文本, 并对正文文本进行文本分词; S2、 根据 人物属性, 选择包含分类信息的词元属性; S3、 构 建特征: 使用命名实体、 依存关系作为额外的词 元标注, 并构建基于静态词表的状态特征, 同时 使用依存句法树的上下文关系来构建转移特征; S4、 将状态特征和转移特征作为最大熵算法的约 束, 训练分类模型。 本发 明在复杂网络环境中, 获 取感兴趣的目标人物的网页的正文, 通过合理地 选取和构造特征, 使用最大熵 算法实现了在复杂 网络环境中提取 人物特征的方法。 权利要求书2页 说明书9页 附图1页 CN 115525760 A 2022.12.27 CN 115525760 A 1.一种基于网页正文的人物属性 提取方法, 其特 征在于, 包括以下步骤: S1、 获取目标人物的相关网页, 从网页中提取出包含人物属性信息的正文文本, 并对正 文文本进行文本分词; S2、 根据人物属性, 选择包 含分类信息的词元属性; S3、 构建特征: 使用命名实体、 依存关系作为额外的词元标注, 并构建基于静态词表的 状态特征, 同时使用依存句法树的上 下文关系来构建转移特 征; S4、 将状态特 征和转移特 征作为最大熵算法的约束, 训练分类模型。 2.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S1中的相关网页包括在线百 科、 个人网站、 机构主页和社交平台个人 账号。 3.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S1中, 将单词作为分词的粒度。 4.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S2中, 分词处理后的正文文本是一个词元序列, 分词的最小语义单元即为序列的词元; 在 人物属性提取任务中, 人物属 性信息就包含在词 元本身的属 性以及词元上下文的关系中; 使用的词元属性包括以下几种: 1)“text”属性的属性值为词元的原始文本; 保留词元的原始文本作为词元属性; 在后 续特征构建中, 对照静态词表, 匹配人物属性中 高频出现的单词; 2)“lemma”属性是词元的原型, 使用 “lemma”属性作为词元属性来消除歧义, 作为 “text”属性的辅助属性进行 标注; 3)“shape”属性代表词元的大小 写格式; 4)“pos”属性表示词元的词类; 5)“index”是指词元在文本序列中的索引值; 6)“prefix”和“suffix”分别代表词元的前缀和后缀。 5.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S3中的状态特 征包括: 1)“word_list”特征为当前词元的 “text”和“lemma”属性是否包 含于静态词表的判断; 2)“prefix_list ”、“suffix_list ”分别为前缀、 后缀的静态词表, 使用静态前、 后缀表 作为特征函数来进行 前后缀的选择; 3)“ent”表示词元的命名实体 类别, 使用命名实体属性 来作为特 征函数; 转移特征包括: 4)“dep”表示词元的依存关系, 该属性反映的是词元在句法和语义上的依存特征; 依存 句法关系用一棵依存关系树 来表示, 使用条件依存关系来作为特 征函数。 6.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S4中, 最大熵算法构建的分类模型是一个条件概率分布P(Y|X), 其中, X为样本, Y为人物 属性类别; 将构建的特征函数f(x, y)作为分布P(Y|X)的约束条件, 以寻找满足这些约束条 件的分布中, 熵 最大的分布P(Y|X); 其中, 特征函数f(x, y)用来描述词元x和类别标注y的关 系, 定义为:权 利 要 求 书 1/2 页 2 CN 115525760 A 2特征函数反应的是词元在词元本身和上 下文中满足的关系; 为了寻找不同的特征函数对于分类的增益程度, 考虑特征函数在 真实分布和经验分布 上的一致性; 对于第i个特 征函数fi, 其关于真实期望的期望值用 表示为: 表示(x, y)的真实分布; 第i个特征函数fi关于条件分布和经验分布的模糊期望值EP(fi)有如下表示: 指的是x的真实分布; P(y|x)指的是模型在得到x的输入的情况 下, 输出y的分布; 在人物属性提取的场景下, 特征函数的真实期望 和模型期望EP(fi)分别代表该特 征函数在真实分布和经验分布上 的期望值, 假设这两个期望相等; 则人物属 性提取模型必 须满足所有特 征等式的约束 为了最小化模型P(Y|X)的熵, 首先要计算出满足等式约束 的条件熵, 其 定义如下: 该函数的约束条件为: M表示特征函数的个数; H(P)代表着满足所有特征函数的人物属性提取模型的熵的负 值; H(P)为凸函数, 根据凸优化的理论, 使用拉格朗日函数将其转化为无约束优化函数求解 H(P), 得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λi; 从语义的角度来看, λi反 映的是构造的不同的特征函数fi(x, y)对于分类的增益程度, 特征函数对于分类的增益越 高, 其 λi值就越大; 至此, 得到分布P(y|x)关于一组权值 λ 的如下表示形式: 其中, Zλ(x)为规范化因子, 它确保整个模型 是一个合法的概 率分布, 其定义 为: 使用IIS算法来完成模型学习的最优化; 通过最小化模型H(P), 得到模型的分布函数Pλ (y|x), 即完成模型在人物属性 提取场景 下的构建。权 利 要 求 书 2/2 页 3 CN 115525760 A 3
专利 一种基于网页正文的人物属性提取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:43
上传分享
举报
下载
原文档
(597.4 KB)
分享
友情链接
T-CMAM M10-20—2019 蒙医医疗技术操作规范.pdf
BSIMM 软件安全构建成熟度模型 .pdf
GB-T 42331-2023 潮流能发电装置技术成熟度评估导则.pdf
GB-T 36521-2018 码垛机安全要求.pdf
T-CEC 617—2022 高海拔地区交流输变电设备外绝缘配置.pdf
NY-T 2236-2012 植物新品种特异性、一致性和稳定性测试指南 番茄.pdf
SL-T 534-2023 生态清洁小流域建设技术规范.pdf
5-02-01-02 造林更新工.pdf
GA-T 1212-2014 安防人脸识别应用 防假体攻击测试方法.pdf
DB52-T 1626-2021 水利工程调整概算报告编制导则 贵州省.pdf
GB-T 35282-2023 信息安全技术 电子政务移动办公系统安全技术规范.pdf
GB-T 37204-2018 全钒液流电池用电解液.pdf
GB-T 7713.3-2014 科技报告编写规则.pdf
BPMN2.0标准规范(中文版).pdf
GB-T 2424.6-2021 环境试验 第3部分:支持文件及导则 温度-湿度试验箱性能确认.pdf
信通院 5G+云+AI:数字经济新时代的引擎.pdf
思度安全-DSMM-016 合规管理规范V1.0.pdf
TTAF 077.18—2022 APP收集使用个人信息最小必要评估规范 第18部分:剪切板信息.pdf
T-ACEF 105—2023 公民绿色低碳行为温室气体减排量化指南 行:骑行.pdf
DB34-T 4145-2022 政务数据目录 核心元数据 安徽省.pdf
1
/
13
评价文档
赞助3元 点击下载(597.4 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。