iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211166342.1 (22)申请日 2022.09.23 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 刘发贵 吴怡  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 江裕强 (51)Int.Cl. G06F 40/284(2020.01) G06N 5/02(2006.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06Q 50/08(2012.01) (54)发明名称 一种基于位置感知的建筑工程变更事件联 合抽取方法 (57)摘要 本发明提供了一种基于位置感知的建筑工 程变更事件联合抽取方法。 该方法包括以下步 骤: 获取多个建筑工程变更文本, 定义工程变更 事件的论元和触发词; 对工程变更文本进行预处 理, 并根据工程变更事件的论元和触发词对工程 变更文本进行字粒度的标注; 获得工程变更事件 的原型表征; 构建字符特征编码模块, 强化论元 和触发词边界位置的字 符, 得到领域知识增强的 字符特征; 构建句子特征编码模块, 得到变更语 义感知的句子特征; 构建特征聚合模块, 得到具 有全局语境的深层字符特征; 构建序列标注模 块, 进行工程变更事件的结构化表达。 本发明通 过在字符特征中融合领域知识 语义、 句子级别特 征, 并利用先验标签知识, 有助于提升建筑工程 变更事件的抽取效果。 权利要求书3页 说明书9页 附图4页 CN 115238685 A 2022.10.25 CN 115238685 A 1.一种基于位置感知的建筑工程变更事 件联合抽取 方法, 其特 征在于, 包括以下步骤: S1: 获取多个建筑工程变更文本, 分析工程变更文本, 确定构成工程变更事件的要素, 定义工程变更事 件的论元和触发词; S2: 对工程变更文本进行预处理, 并根据工程变更事件的论元和触发词对工程变更文 本进行字粒度的标注; S3: 根据标注后的工程变更文本的标签信息获得工程变更事 件的原型表征; S4: 构建字符特征编码模块, 利用工程变更事件的要素语义强化论元和触发词边界位 置的字符, 得到领域知识增强的字符特 征; S5: 构建句子特征编码模块, 利用工程变更事件的原型表征感知工程变更文档中包含 事件论元和触发词的句子, 得到变更语义感知的句子特 征; S6: 构建特征聚合模块, 将句子特征与字符特征相融合, 得到具有全局语境的深层字符 特征; S7: 构建序列标注模块, 学习深层字符特征对应的标签依赖信息, 得到工程变更文本 中 的最优标签序列, 并进行工程变更事 件的结构化表达 。 2.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 步骤S1中, 构成工程变更事件的要素包括建筑构件、 建筑场地、 建筑楼层、 建筑空 间、 属性、 数值属性 值、 对象属性目标和对建筑构件的变更 方式; 定义工程变更事件的论元的角色, 包括建筑构件、 建筑场地、 建筑楼层、 建筑空间、 属 性、 数值属性 值和对象属性目标; 工程变更事 件的触发词为表达变更 方式的词。 3.根据权利要求2所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 步骤S2中, 工程变更文本包括多个句子, 按照工程变更文本中的标点符号, 将工程 变更文本进行分句预处 理, 每一行为单一句子; 获取预处理后每份工程变更文本中所包括的句子数和句子长度; 采用 ‘BIO’三位序列 标注法, 对工程变更文本进行字符粒度的标注。 4.根据权利要求3所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 所述采用 ‘BIO’三位序列标注法, 对工程变更文本进行字符粒度的标注, 具体如下: 将工程变更文本中类别属于论元的词标注为论元, 标签即为其角色; 将工程变更文本 中表达变更 方式的词标注为触发词。 5.根据权利要求4所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 步骤S3具体包括以下步骤: S3.1: 分析构成工程变更事 件的要素的重要性, 对步骤S1中确定的要素分配权 重; S3.2: 针对每份工程变更文本, 对于步骤S2中标注的论元和触发词, 获取其对应的词向 量, 并根据其权 重计算此工程变更文本中包括的工程变更事 件的语义表征 e, 具体如下: , 其中, 为工程变更文本中的要素即标注的论元或触发词的词向量, 为论元或触发 词 的权重, 为不同要素类别数量;权 利 要 求 书 1/3 页 2 CN 115238685 A 2S3.3: 计算步骤S1中获取的所有工程变更文本对应的工程变更事件 的语义表征, 经过 平均计算得到 工程变更事 件的原型表征 : , 其中, 为步骤S1中获取的工程变更文本数量。 6.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 步骤S4包括以下步骤: S4.1: 将工 程变更文 本中由T个字符组成的第i个句子 输入词向量模型获取第i个句子 中的每个字符向量 , 表示工程变更文本中第i个句子 中的第t个字符向量, t=1~T; S4.2: 通过编码层提取第i个句子 中每个字符的隐藏特 征 ; S4.3: 使用分词工具对第i个句子 进行分词, 将第i个句子 中每个词的语义信息, 以 不同字符位置 权重融合到词内各字符隐藏特 征, 得到领域知识增强的字符特 征 :  , 其中, 表示第i个句子 中第j个词的语义向量, p表 示构成第i个句子 中第j个词的 第p个字符,   表示第i个句子 中第j个词的第p个字符对应的位置 权重; S4.4: 对工程变更文本中所有的句子重复步骤S4.1~S4.3, 得到工程变更文本中所有句 子中每个字符的领域知识增强的字符特 征。 7.根据权利要求6所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 所述字符位置 权重 , 其计算公式如下:  , 其中,softmax()表示归一化指数函数; Normalization ()表示最大最小值归一化; 表 示第i个句子 中第j个词所包括的字符数量。 8.根据权利要求1所述的一种基于位置感知的建筑工程变更事件联合抽取方法, 其特 征在于, 步骤S5包括以下步骤: S5.1: 建立能够 提取句子局部特征的编码层, 学习步骤S4.2中的第i个句子 中每个字 符的隐藏特 征, 得到第i个句子的语义表征 ; S5.2: 根据第i个句子在文档中的位置顺序, 拼接一个位置向量 , 得到第i个句子的句 子表征 : ; S5.3: 计算工程变更事件原型表征与句子表征的相关性, 加强文档中包括事件论元或 触发词的事件句特征, 抑制不相关的非事件句特征, 得到第i个句子的变更语义感知的句子权 利 要 求 书 2/3 页 3 CN 115238685 A 3

PDF文档 专利 一种基于位置感知的建筑工程变更事件联合抽取方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于位置感知的建筑工程变更事件联合抽取方法 第 1 页 专利 一种基于位置感知的建筑工程变更事件联合抽取方法 第 2 页 专利 一种基于位置感知的建筑工程变更事件联合抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。