专利 一种汽车金融风控场景下的样本迁移方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210574498.7 (22)申请日 2022.05.24 (71)申请人上海蓝书信息科技有限公司地址 200135 上海市浦东新区中国（上海）自由贸易试验区浦东大道 2123号三层 (72)发明人韩科森　唐守旭　苏世前　田立民　杨青相　涂若欣　张元鹏　张磊　 (74)专利代理机构北京市京师律师事务所 11665 专利代理师黄熊 (51)Int.Cl. G06Q 40/02(2012.01) G06K 9/62(2022.01) (54)发明名称一种汽车金融风控场景下的样本迁移方法 (57)摘要本发明实施例公开了一种汽车金融风控场景下的样本迁移方法，包括以下步骤： S1、对源域、伪标签数据和目标域数据的样本添加预设权重； S2、将源域中与目标域相似的样本迁移至所述目标域中形成第二测试数据集； S3、选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集； S4、对所述第二测试数据集进行预测分类，并标记样本补充到第二训练数据集形成第三训练数据集； S5、重复执行步骤S3和S4，防止了模型对单一来源的过拟合，防止在全量加入目标域表导致预测结果降低，进而保证在稳定的情况下，能够将源域中的部分数据迁移到目标域中。权利要求书1页说明书4页附图2页 CN 114723553 A 2022.07.08 CN 114723553 A 1.一种汽车金融风控场景下的样本迁移方法，其特征是：包括以下步骤： S1、对源域、伪标签数据和目标域数据的样本添加预设权重； S2、将源域中与目标域相似的样本迁移至所述目标域中形成第二测试数据集； S3、选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集； S4、对所述第二测试数据集进行预测分类，并标记样本补充到第二训练数据集形成第三训练数据集； S5、重复执行步骤S3和S4。 2.根据权利要求1所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述对源域、伪标签数据和目标域数据的样本添加预设权重，具体包括：将源域，伪标签数据、目标域数据的样本权重分别设置为0.5、 0.7和1。 3.根据权利要求2所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述将源域中与目标域相似的样本迁移至所述目标域中形成第二测试数据集，具体包括：通过所述目标域数据作为第一训练数据集通过第一框架训练出第一模型；将所述源域中的数据作为第一测试数据集代入到第一模型预测；选取预测概率高的数据补充带第一测试数据集中形成第二测试数据集。 4.根据权利要求3所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述第一框架为 Lightgbm框架。 5.根据权利要求4所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集，具体包括：通过第一训练数据集代入到第二框架训练出第二模型；通过所述第二模型预测第二测试数据集中的数据；按照预设第一阈值选取预设第一阈值内的数据补充到第一训练数据集中，生成第二训练数据集。 6.根据权利要求5所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述第二框架为catbo ost框架。 7.根据权利要求6所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述对所述第二测试数据集进行预测分类，并标记样本补充到第二训练数据集形成第三训练数据集，具体包括：对所述第二测试数据集通过第二模型进行预测分类；选取第二阈值的样本的权重设为0.5；选取第三阈值的样本的权重设为1；将选取后的样本补充到第二训练数据集中生成第三训练数据集。 8.根据权利要求7所述的一种汽车金融风控场景下的样本迁移方法，其特征是：所述第二阈值为小于0.5，所述第三阈值为大于0.68。权　利　要　求　书 1/1 页 2 CN 114723553 A 2一种汽车金融风控场景下的样本迁移方法技术领域 [0001]本发明实施例涉及金融风控模型设计技术领域，具体涉及一种汽车金融风控场景下的样本迁移方法。背景技术 [0002]迁移方案主要是为了解决在数据分布不同的情况下如何使用网贷数据扩充信贷数据,以达到超越单纯使用信贷训练数据的效果。包括权重调整方案与特征调整方案,每个方案中又包括了模型方法与手工方法。 [0003]汽车金融已成为当前金融发展的一个重要分支,金融风险控制永远是业务的核心基础。汽车金融作为对风险控制要求很高的行业,因为缺乏对新客群的了解,对新的细分客群的风控处理往往成为金融普惠的重要阻碍。如何利用现有信贷行为数据来服务新场景、新客群成了一个很有价值的研究方向。但对于数据较少的汽车金融业务风控模型的创建，如何利用现有的另一批信贷数据辅助风控模型的创建成了亟待解决的问题。发明内容 [0004]为此，本发明实施例提供一种汽车金融风控场景下的样本迁移方法，以解决现有技术中由于汽车金融业务风控模型建立时数据不足的问题。 [0005]为了实现上述目的，本发明实施例提供如下技术方案：一种汽车金融风控场景下的样本迁移方法，其特征是：包括以下步骤： [0006]S1、对源域、伪标签数据和目标域数据的样本添加预设权重； [0007]S2、将源域中与目标域相似的样本迁移至所述目标域中形成第二测试数据集； [0008]S3、选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集； [0009]S4、对所述第二测试数据集进行预测分类，并标记样本补充到第二训练数据集形成第三训练数据集； [0010]S5、重复执行步骤S3和S4。 [0011]进一步地，所述对源域、伪标签数据和目标域数据的样本添加预设权重，具体包括：将源域，伪标签数据、目标域数据的样本权重分别设置为0.5、 0.7和1。 [0012]进一步地，所述将源域中与目标域相似的样本迁移至所述目标域中形成第二测试数据集，具体包括： [0013]通过所述目标域数据作为第一训练数据集通过第一框架训练出第一模型； [0014]将所述源域中的数据作为第一测试数据集代入到第一模型预测； [0015]选取预测概率高的数据补充带第一测试数据集中形成第二测试数据集。 [0016]进一步地，所述第一框架为 Lightgbm框架。 [0017]进一步地，所述选取第二测试数据集中的正确样本补充到第一训练数据集中形成第二训练数据集，具体包括：说　明　书 1/4 页 3 CN 114723553 A 3

专利 一种汽车金融风控场景下的样本迁移方法

专利一种汽车金融风控场景下的样本迁移方法