(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210574498.7
(22)申请日 2022.05.24
(71)申请人 上海蓝书信息科技有限公司
地址 200135 上海市浦东 新区中国 (上海)
自由贸易试验区浦东大道 2123号三层
(72)发明人 韩科森 唐守旭 苏世前 田立民
杨青相 涂若欣 张元鹏 张磊
(74)专利代理 机构 北京市京师律师事务所
11665
专利代理师 黄熊
(51)Int.Cl.
G06Q 40/02(2012.01)
G06K 9/62(2022.01)
(54)发明名称
一种汽车 金融风控场景 下的样本 迁移方法
(57)摘要
本发明实施例公开了一种汽车金融风控场
景下的样本迁移方法, 包括以下步骤: S1、 对源
域、 伪标签数据和目标域数据的样 本添加预设权
重; S2、 将源域中与目标域相似的样本迁移至所
述目标域中形成第二测试数据集; S3、 选取第二
测试数据集中的正确样本补充到第一训练数据
集中形成第二训练数据集; S4、 对所述第二测试
数据集进行预测分类, 并标记样 本补充到第二训
练数据集形成第三训练数据集; S5、 重复执行步
骤S3和S4, 防止了模型对单一来源的过拟合, 防
止在全量加入目标域表导致预测结果降低, 进而
保证在稳定的情况下, 能够将源域中的部分数据
迁移到目标域中。
权利要求书1页 说明书4页 附图2页
CN 114723553 A
2022.07.08
CN 114723553 A
1.一种汽车 金融风控场景 下的样本 迁移方法, 其特 征是: 包括以下步骤:
S1、 对源域、 伪标签数据和目标域数据的样本添加预设权 重;
S2、 将源域中与目标域相似的样本 迁移至所述目标域中形成第二测试 数据集;
S3、 选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据
集;
S4、 对所述第二测试数据集进行预测分类, 并标记样本补充到第二训练数据集形成第
三训练数据集;
S5、 重复执 行步骤S3和S4。
2.根据权利要求1所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述对
源域、 伪标签数据和目标域数据的样本添加预设权重, 具体包括: 将源域, 伪标签数据、 目标
域数据的样本 权重分别设置为0.5、 0.7和1。
3.根据权利要求2所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述将
源域中与目标域相似的样本 迁移至所述目标域中形成第二测试 数据集, 具体包括:
通过所述目标域数据作为第一训练数据集 通过第一框架训练出第一模型;
将所述源域中的数据作为第一测试 数据集代入到第一模型 预测;
选取预测概率高的数据补充带第一测试 数据集中形成第二测试 数据集。
4.根据权利要求3所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述第
一框架为 Lightgbm框架。
5.根据权利要求4所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述选
取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集, 具体包
括:
通过第一训练数据集代入到第二框架训练出第二模型;
通过所述第二模型 预测第二测试 数据集中的数据;
按照预设第一阈值选取 预设第一阈值内的数据补充到第一训练数据集中,
生成第二训练数据集。
6.根据权利要求5所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述第
二框架为catbo ost框架。
7.根据权利要求6所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述对
所述第二测试数据集进行预测分类, 并标记样本补充到第二训练数据集形成第三训练数据
集, 具体包括:
对所述第二测试 数据集通过第二模型进行 预测分类;
选取第二阈值的样本的权 重设为0.5;
选取第三阈值的样本的权 重设为1;
将选取后的样本补充到第二训练数据集中生成第三训练数据集。
8.根据权利要求7所述的一种 汽车金融风控场景下的样本迁移方法, 其特征是: 所述第
二阈值为小于0.5, 所述第三阈值 为大于0.68。权 利 要 求 书 1/1 页
2
CN 114723553 A
2一种汽车 金融风控场景下的样本迁移 方法
技术领域
[0001]本发明实施例涉及金 融风控模型设计技术领域, 具体涉及一种汽车金融风控场景
下的样本 迁移方法。
背景技术
[0002]迁移方案主要是为了解决在数据分布不同的情况下如何使用网贷数据扩充信贷
数据,以达到超越单纯使用信贷训练数据的效果。 包括权重调整 方案与特征调整方案,每个
方案中又包括了模型 方法与手工方法。
[0003]汽车金融已成为当前金融发展的一个重要分支,金融风险控制永远是业务的核心
基础。 汽车金融作为对风险控制要求很高的行业,因为缺乏对新客群的了解,对新的细分客
群的风控处理往往成为金融普惠的重要阻碍。 如何利用现有信贷行为数据来服务新场景、
新客群成了一个很有价值的研究方向。 但对于数据较少的汽车金融业务风控模型 的创建,
如何利用现有的另一批信贷数据辅助风控 模型的创建成了亟 待解决的问题。
发明内容
[0004]为此, 本发明实施例提供一种汽车金融风控场景下的样本迁移方法, 以解决现有
技术中由于汽车 金融业务风控模型建立时数据不足的问题。
[0005]为了实现上述目的, 本发明实施例提供如下技术方案: 一种汽车金融风控场景下
的样本迁移方法, 其特 征是: 包括以下步骤:
[0006]S1、 对源域、 伪标签数据和目标域数据的样本添加预设权 重;
[0007]S2、 将源域中与目标域相似的样本 迁移至所述目标域中形成第二测试 数据集;
[0008]S3、 选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数
据集;
[0009]S4、 对所述第二测试数据集进行预测分类, 并标记样本补充到第二训练数据集形
成第三训练数据集;
[0010]S5、 重复执 行步骤S3和S4。
[0011]进一步地, 所述对源域、 伪标签数据和目标域数据的样本添加预设权重, 具体包
括: 将源域, 伪标签数据、 目标域数据的样本 权重分别设置为0.5、 0.7和1。
[0012]进一步地, 所述将源域中与目标域相似的样本迁移至所述目标域中形成第二测试
数据集, 具体包括:
[0013]通过所述目标域数据作为第一训练数据集 通过第一框架训练出第一模型;
[0014]将所述源域中的数据作为第一测试 数据集代入到第一模型 预测;
[0015]选取预测概率高的数据补充带第一测试 数据集中形成第二测试 数据集。
[0016]进一步地, 所述第一框架为 Lightgbm框架。
[0017]进一步地, 所述选取第二测试数据集中的正确样本补充到第一训练数据集中形成
第二训练数据集, 具体包括:说 明 书 1/4 页
3
CN 114723553 A
3
专利 一种汽车金融风控场景下的样本迁移方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:19:10上传分享