iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211035582.8 (22)申请日 2022.08.26 (71)申请人 达而观信息科技 (上海) 有限公司 地址 201203 上海市浦东 新区中国 (上海) 自由贸易试验区亮秀路112号B座301、 303、 304室 (72)发明人 吴芸 高翔 杨慧宇 阳建林  张芸 纪达麒 陈运文  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 侯军洋 (51)Int.Cl. G06F 16/35(2019.01) G06Q 40/02(2012.01) (54)发明名称 一种流水样本集的生成方法、 装置、 计算机 设备及介质 (57)摘要 本发明实施例公开了一种流水样本集的生 成方法、 装置、 计算机设备及介质。 该方法包括: 获取基础标签规则库; 对各基础标签规则进行解 析处理, 得到与各基础标签规则分别对应的短路 机制触发条件集合; 通过与各基础标签规则分别 对应的短路机制触发条件集合, 确定待标注流水 信息集中的各流水信息所命中的基础标签规则, 并使用与所命中的基础标签规则对应的分类标 签, 对各流水样本标注, 形成流水样本集。 本发明 实施例, 解决了由于待 标注的流水数量庞大而造 成工作人员工作量大和识别准确率较低的问题, 实现了能够有效地对流水进行标签标注, 提高了 流水识别的准确率, 降低了流水标签标注的人力 成本。 权利要求书3页 说明书10页 附图3页 CN 115391537 A 2022.11.25 CN 115391537 A 1.一种流水样本集的生成方法, 其特 征在于, 包括: 获取基础标签规则库, 基础标签规则库中的基础标签规则包括由至少一个逻辑连接符 连接的多个条件语句; 对各基础标签规则进行解析处理, 得到与 各基础标签规则分别对应的短路机制触发条 件集合; 短路机制触发条件中包括至少一个目标条件语句的期望值, 以及全部目标条件语 句均满足期望值时的短路类型; 其中, 所述短路类型包括: 基础标签规则的直接未命中跳过, 或者基础标签规则的直接 命中; 通过与各基础标签规则分别对应的短路机制触发条件集合, 确定待标注流水信 息集中 的各流水信息所命中的基础标签规则, 并使用与所命中的基础标签规则对应的分类标签, 对各流水样本标注, 形成流水样本集。 2.根据权利要求1所述的方法, 其特征在于, 对各基础标签规则进行解析处理, 得到与 各基础标签规则分别对应的短路机制触发条件集 合, 包括: 对各基础标签规则进行解析处 理, 得到多个条件语句和逻辑连接符; 其中, 每个条件语句包含符合条件语句和不符合条件语句, 并将符合条件语句为1和不 符合条件语句为0; 根据多个所述条件语句所关联的符合条件语句和不符合条件语句, 进行排列组合, 得 到条件语句排练 组合集合; 根据逻辑连接符, 判断各所述条件语句排练组合集合中的各条件语句计算结果是否为 真, 若是, 则得到与各基础标签规则分别对应的短路机制触发条件集 合。 3.根据权利要求2所述的方法, 其特征在于, 通过与各基础标签规则分别对应的短路机 制触发条件集 合, 确定待标注流水信息集中的各流水信息所命中的基础标签规则, 包括: 获取待标注流水信息集中的当前处 理流水信息; 在与各基础标签规则分别对应的短路机制触发条件集合中, 获取当前短路机制触发条 件集合; 判断所述当前处理流水信息是否满足所述当前短路机制触发条件集合, 若是, 则确定 所述当前处 理流水信息所命中的基础标签规则; 若否, 判断在所述基础标签规则库中, 是否存在剩余基础标签规则, 若是, 则在剩余基 础标签规则中, 获取剩余基础标签规则所对应的当前短路机制触发条件集合, 并返回执行 判断所述当前处理流水信息是否满足所述当前短路机制触发条件集合, 若是, 则确定所述 当前处理流水信息所命中的基础标签规则, 直至不存在剩余基础标签规则。 4.根据权利要求3所述的方法, 其特征在于, 所述判断所述当前处理流水信 息是否满足 所述当前短路机制触发条件集 合, 包括: 解析所述当前处理流水信 息, 在所述当前处理流水信 息中获取与所述当前短路机制触 发条件集 合相关联的当前处 理流水信息条件; 判断所述当前处理流水信息条件是否命中所述当前短路机制触发条件集合, 若是, 则 所述当前处 理流水信息满足所述当前短路机制触发条件集 合。 5.根据权利要求4所述的方法, 其特征在于, 在所述判断在各所述基础标签规则库中, 是否存在剩余基础标签规则之后, 还 包括:权 利 要 求 书 1/3 页 2 CN 115391537 A 2若否, 则当前处理流水信息未命中所述基础标签规则, 并将所述当前处理流水信息确 定为未分类流水样本; 对所述未分类流水样本进行再次分类和分类标签标注, 将所述未分类流水样本添加至 流水样本集, 并更新所述 流水样本集。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 在使用与所命中的基础标签规则 对应的分类标签, 对各流水样本标注, 形成流水样本集之后, 还 包括: 将所述流水样本集中的流水样本输入至分类模型进行模型训练, 得到流水标签分类模 型; 判断所述流水标签分类模型的标签分类准确率是否满足预设的标准准确率, 若是, 则 确定完成训练所述 流水标签分类模型。 7.根据权利要求6所述的方法, 其特征在于, 在使用与 所命中的基础标签规则对应的分 类标签, 对各流水样本标注, 形成流水样本集之后, 还 包括: 根据流水样本集中的各流水样本的关联性, 判断所述各流水样本是否存在异常分类流 水样本; 若是, 对所述异常分类流水样本进行重新分类, 得到所述异常分类流水样本对应的分 类标签和新基础标签规则; 将所述异常分类流水样本输入至流水标签分类模型进行模型训练, 得到优化后的流水 标签分类模型, 并将新基础标签规则添加至所述基础标签规则库中, 更新所述基础标签规 则库。 8.根据权利要求7所述的方法, 其特征在于, 在判断所述流水标签分类模型的标签分类 准确率是否满足预设的标准 准确率之后, 还 包括: 若否, 则基于更新后的所述基础标签规则库, 对获取到的所述待标注流水信息集进行 分类, 并输入至所述流水标签分类模型进行再训练, 直至所述流水标签分类模型 的标签分 类准确率满足预设的标准 准确率, 并确定 完成训练所述 流水标签分类模型。 9.一种流水样本集的生成装置, 其特 征在于, 包括: 基础标签规则库获取模块, 用于获取基础标签规则库, 基础标签规则库中的基础标签 规则包括由至少一个逻辑连接符连接的多个条件语句; 短路机制触发条件集合确定模块, 用于对各基础标签规则进行解析处理, 得到与各基 础标签规则分别对应的短路机制触发条件集合; 短路机制触发条件中包括至少一个目标条 件语句的期望值, 以及全部目标 条件语句均满足期望值时的短路类型; 其中, 所述短路类型包括: 基础标签规则的直接未命中跳过, 或者基础标签规则的直接 命中; 流水样本集形成模块, 用于通过与各基础标签规则分别对应的短路机制触发条件集 合, 确定待标注流水信息集中的各流水信息所命中的基础标签规则, 并使用与所命中的基 础标签规则对应的分类标签, 对各流水样本标注, 形成流水样本集。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑8中任一项 所 述的流水样本集的生成方法。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被权 利 要 求 书 2/3 页 3 CN 115391537 A 3

PDF文档 专利 一种流水样本集的生成方法、装置、计算机设备及介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种流水样本集的生成方法、装置、计算机设备及介质 第 1 页 专利 一种流水样本集的生成方法、装置、计算机设备及介质 第 2 页 专利 一种流水样本集的生成方法、装置、计算机设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。