专利 一种基于网页正文的人物属性提取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211180208.7 (22)申请日 2022.09.27 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人费高雷　高隽逸　胡光岷　 (74)专利代理机构成都虹盛汇泉专利代理有限公司 51268 专利代理师王伟 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) (54)发明名称一种基于网页正文的人物属性提取方法 (57)摘要本发明公开了一种基于网页正文的人物属性提取方法，包括以下步骤： S1、获取目标人物的相关网页，从网页中提取出包含人物属性信息的正文文本，并对正文文本进行文本分词； S2、根据人物属性，选择包含分类信息的词元属性； S3、构建特征：使用命名实体、依存关系作为额外的词元标注，并构建基于静态词表的状态特征，同时使用依存句法树的上下文关系来构建转移特征； S4、将状态特征和转移特征作为最大熵算法的约束，训练分类模型。本发明在复杂网络环境中，获取感兴趣的目标人物的网页的正文，通过合理地选取和构造特征，使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。权利要求书2页说明书9页附图1页 CN 115525760 A 2022.12.27 CN 115525760 A 1.一种基于网页正文的人物属性提取方法，其特征在于，包括以下步骤： S1、获取目标人物的相关网页，从网页中提取出包含人物属性信息的正文文本，并对正文文本进行文本分词； S2、根据人物属性，选择包含分类信息的词元属性； S3、构建特征：使用命名实体、依存关系作为额外的词元标注，并构建基于静态词表的状态特征，同时使用依存句法树的上下文关系来构建转移特征； S4、将状态特征和转移特征作为最大熵算法的约束，训练分类模型。 2.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。 3.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中，将单词作为分词的粒度。 4.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S2中，分词处理后的正文文本是一个词元序列，分词的最小语义单元即为序列的词元；在人物属性提取任务中，人物属性信息就包含在词元本身的属性以及词元上下文的关系中；使用的词元属性包括以下几种： 1)“text”属性的属性值为词元的原始文本；保留词元的原始文本作为词元属性；在后续特征构建中，对照静态词表，匹配人物属性中高频出现的单词； 2)“lemma”属性是词元的原型，使用 “lemma”属性作为词元属性来消除歧义，作为 “text”属性的辅助属性进行标注； 3)“shape”属性代表词元的大小写格式； 4)“pos”属性表示词元的词类； 5)“index”是指词元在文本序列中的索引值； 6)“prefix”和“suffix”分别代表词元的前缀和后缀。 5.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S3中的状态特征包括： 1)“word_list”特征为当前词元的 “text”和“lemma”属性是否包含于静态词表的判断； 2)“prefix_list ”、“suffix_list ”分别为前缀、后缀的静态词表，使用静态前、后缀表作为特征函数来进行前后缀的选择； 3)“ent”表示词元的命名实体类别，使用命名实体属性来作为特征函数；转移特征包括： 4)“dep”表示词元的依存关系，该属性反映的是词元在句法和语义上的依存特征；依存句法关系用一棵依存关系树来表示，使用条件依存关系来作为特征函数。 6.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S4中，最大熵算法构建的分类模型是一个条件概率分布P(Y|X)，其中， X为样本， Y为人物属性类别；将构建的特征函数f(x， y)作为分布P(Y|X)的约束条件，以寻找满足这些约束条件的分布中，熵最大的分布P(Y|X)；其中，特征函数f(x， y)用来描述词元x和类别标注y的关系，定义为：权　利　要　求　书 1/2 页 2 CN 115525760 A 2特征函数反应的是词元在词元本身和上下文中满足的关系；为了寻找不同的特征函数对于分类的增益程度，考虑特征函数在真实分布和经验分布上的一致性；对于第i个特征函数fi，其关于真实期望的期望值用表示为：表示(x， y)的真实分布；第i个特征函数fi关于条件分布和经验分布的模糊期望值EP(fi)有如下表示：指的是x的真实分布； P(y|x)指的是模型在得到x的输入的情况下，输出y的分布；在人物属性提取的场景下，特征函数的真实期望和模型期望EP(fi)分别代表该特征函数在真实分布和经验分布上的期望值，假设这两个期望相等；则人物属性提取模型必须满足所有特征等式的约束为了最小化模型P(Y|X)的熵，首先要计算出满足等式约束的条件熵，其定义如下：该函数的约束条件为： M表示特征函数的个数； H(P)代表着满足所有特征函数的人物属性提取模型的熵的负值； H(P)为凸函数，根据凸优化的理论，使用拉格朗日函数将其转化为无约束优化函数求解 H(P)，得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λi；从语义的角度来看， λi反映的是构造的不同的特征函数fi(x， y)对于分类的增益程度，特征函数对于分类的增益越高，其 λi值就越大；至此，得到分布P(y|x)关于一组权值 λ 的如下表示形式：其中， Zλ(x)为规范化因子，它确保整个模型是一个合法的概率分布，其定义为：使用IIS算法来完成模型学习的最优化；通过最小化模型H(P)，得到模型的分布函数Pλ (y|x)，即完成模型在人物属性提取场景下的构建。权　利　要　求　书 2/2 页 3 CN 115525760 A 3

专利 一种基于网页正文的人物属性提取方法

专利一种基于网页正文的人物属性提取方法