iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211180208.7 (22)申请日 2022.09.27 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 费高雷 高隽逸 胡光岷  (74)专利代理 机构 成都虹盛汇泉专利代理有限 公司 51268 专利代理师 王伟 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) (54)发明名称 一种基于网页正文的人物属性 提取方法 (57)摘要 本发明公开了一种基于网页正文的人物属 性提取方法, 包括以下步骤: S1、 获取目标人物的 相关网页, 从 网页中提取出包含 人物属性信息的 正文文本, 并对正文文本进行文本分词; S2、 根据 人物属性, 选择包含分类信息的词元属性; S3、 构 建特征: 使用命名实体、 依存关系作为额外的词 元标注, 并构建基于静态词表的状态特征, 同时 使用依存句法树的上下文关系来构建转移特征; S4、 将状态特征和转移特征作为最大熵算法的约 束, 训练分类模型。 本发 明在复杂网络环境中, 获 取感兴趣的目标人物的网页的正文, 通过合理地 选取和构造特征, 使用最大熵 算法实现了在复杂 网络环境中提取 人物特征的方法。 权利要求书2页 说明书9页 附图1页 CN 115525760 A 2022.12.27 CN 115525760 A 1.一种基于网页正文的人物属性 提取方法, 其特 征在于, 包括以下步骤: S1、 获取目标人物的相关网页, 从网页中提取出包含人物属性信息的正文文本, 并对正 文文本进行文本分词; S2、 根据人物属性, 选择包 含分类信息的词元属性; S3、 构建特征: 使用命名实体、 依存关系作为额外的词元标注, 并构建基于静态词表的 状态特征, 同时使用依存句法树的上 下文关系来构建转移特 征; S4、 将状态特 征和转移特 征作为最大熵算法的约束, 训练分类模型。 2.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S1中的相关网页包括在线百 科、 个人网站、 机构主页和社交平台个人 账号。 3.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S1中, 将单词作为分词的粒度。 4.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S2中, 分词处理后的正文文本是一个词元序列, 分词的最小语义单元即为序列的词元; 在 人物属性提取任务中, 人物属 性信息就包含在词 元本身的属 性以及词元上下文的关系中; 使用的词元属性包括以下几种: 1)“text”属性的属性值为词元的原始文本; 保留词元的原始文本作为词元属性; 在后 续特征构建中, 对照静态词表, 匹配人物属性中 高频出现的单词; 2)“lemma”属性是词元的原型, 使用 “lemma”属性作为词元属性来消除歧义, 作为 “text”属性的辅助属性进行 标注; 3)“shape”属性代表词元的大小 写格式; 4)“pos”属性表示词元的词类; 5)“index”是指词元在文本序列中的索引值; 6)“prefix”和“suffix”分别代表词元的前缀和后缀。 5.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S3中的状态特 征包括: 1)“word_list”特征为当前词元的 “text”和“lemma”属性是否包 含于静态词表的判断; 2)“prefix_list ”、“suffix_list ”分别为前缀、 后缀的静态词表, 使用静态前、 后缀表 作为特征函数来进行 前后缀的选择; 3)“ent”表示词元的命名实体 类别, 使用命名实体属性 来作为特 征函数; 转移特征包括: 4)“dep”表示词元的依存关系, 该属性反映的是词元在句法和语义上的依存特征; 依存 句法关系用一棵依存关系树 来表示, 使用条件依存关系来作为特 征函数。 6.根据权利要求1所述的一种基于网页正文的人物属性提取方法, 其特征在于, 所述步 骤S4中, 最大熵算法构建的分类模型是一个条件概率分布P(Y|X), 其中, X为样本, Y为人物 属性类别; 将构建的特征函数f(x, y)作为分布P(Y|X)的约束条件, 以寻找满足这些约束条 件的分布中, 熵 最大的分布P(Y|X); 其中, 特征函数f(x, y)用来描述词元x和类别标注y的关 系, 定义为:权 利 要 求 书 1/2 页 2 CN 115525760 A 2特征函数反应的是词元在词元本身和上 下文中满足的关系; 为了寻找不同的特征函数对于分类的增益程度, 考虑特征函数在 真实分布和经验分布 上的一致性; 对于第i个特 征函数fi, 其关于真实期望的期望值用 表示为: 表示(x, y)的真实分布; 第i个特征函数fi关于条件分布和经验分布的模糊期望值EP(fi)有如下表示: 指的是x的真实分布; P(y|x)指的是模型在得到x的输入的情况 下, 输出y的分布; 在人物属性提取的场景下, 特征函数的真实期望 和模型期望EP(fi)分别代表该特 征函数在真实分布和经验分布上 的期望值, 假设这两个期望相等; 则人物属 性提取模型必 须满足所有特 征等式的约束 为了最小化模型P(Y|X)的熵, 首先要计算出满足等式约束 的条件熵, 其 定义如下: 该函数的约束条件为: M表示特征函数的个数; H(P)代表着满足所有特征函数的人物属性提取模型的熵的负 值; H(P)为凸函数, 根据凸优化的理论, 使用拉格朗日函数将其转化为无约束优化函数求解 H(P), 得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λi; 从语义的角度来看, λi反 映的是构造的不同的特征函数fi(x, y)对于分类的增益程度, 特征函数对于分类的增益越 高, 其 λi值就越大; 至此, 得到分布P(y|x)关于一组权值 λ 的如下表示形式: 其中, Zλ(x)为规范化因子, 它确保整个模型 是一个合法的概 率分布, 其定义 为: 使用IIS算法来完成模型学习的最优化; 通过最小化模型H(P), 得到模型的分布函数Pλ (y|x), 即完成模型在人物属性 提取场景 下的构建。权 利 要 求 书 2/2 页 3 CN 115525760 A 3

PDF文档 专利 一种基于网页正文的人物属性提取方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于网页正文的人物属性提取方法 第 1 页 专利 一种基于网页正文的人物属性提取方法 第 2 页 专利 一种基于网页正文的人物属性提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。