九章云极DataCanvas：小微企业贷后风控预警

扫描分享

本文共字，预计阅读时间。

案例名称

小微企业贷后风控预警

案例简介

与以往风险预警系统不同的是，一般风险预警系统是基于规则来实现预警，在本项目中，通过模型来填补规则的不足，使风险预警系统更加完善；模型本质上是不同于规则的方法，可以同时对成百上千个变量进行综合处理，这点是规则达不到的。本项目使用的算法为GBDT+LR模型，第一个GBDT模型是决策树的融合，第二个模型是基于回归的方法，第一个模型的输出作为第二个模型的输入，提升模型效果。

此外，本项目形成了一套全流程的风险预警体系，可以预测未来3-6个月内客户的风险情况，给客户经理提供参考作用，辅助客户经进行贷后处理。模型的覆盖率可以达到60%以上，准确率可以达到40%以上，大大高于同行业的小微企业风控预测模型效果。

创新技术/模式应用

搭建数据科学平台：推动解决全行机器学习建模门槛高、效率低、管理难、不自主的问题，促进全行数据建模架构统一和建模经验的分享与复用。本项目主要涉及的建模流程中核心技术主要分为两方面，分别是变量降维中的变量聚类方法以及在建模过程中使用的GBDT+LR算法，变量聚类能快速有效的进行变量挑选，选出最直接有效的变量，以此来提高运行效率和整体性能；另外一个关键技术是GBDT+LR算法，提高模型的准确率及稳定性。

· 变量聚类

变量聚类是变量降维过程中一种重要方法，是一种基于主成分分析的方法。建模变量数量不同，建模过程的耗时也会不同。在实际构建模型时，变量数量可能上千个，当变量数据足够庞大时，这个时候采用变量聚类则可以快速实现变量的降维，然后再基于降维后的变量进行建模。此时，模型的运行效率会大大提升。

在本项目进行变量聚类的变量挑选，首先对项目涉及变量进行变量聚类，划分出一定类别，每个类中变量数目为一个或多个；然后，计算每个变量对Y变量的影响程度（随机森林重要性），在每个类中挑选出影响程度最高的变量，作为该类的代表变量。

· 建模—GBDT+LR

GBDT+LR本质上是一种具有stacking思想的二分类器模型，所以可以用来解决二分类问题。GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测当给用户推送的广告会不会被用户点击。

点击率预估模型涉及的训练样本一般是上亿级别，样本量大，模型常采用速度较快的LR。但LR是线性模型，学习能力有限，此时特征工程尤其重要。现有的特征工程实验，主要集中在寻找到有区分度的特征、特征组合，折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合，减少特征工程中人力成本。

GBDT+LR 由两部分组成，其中GBDT用来对训练集提取特征作为新的训练输入数据，LR作为新训练输入数据的分类器。

项目效果评估

在小微企业建模过程中，主要通过变量聚类来达到变量降维目的，大大提升建模效率，通过GBDT+LR建立模型，提高预测效果的准确性及稳定性。

· 实现的核心功能（预测）

将要预测客户的输入特征按照预测模型的变量重要性进行选择，同时，对选定的输入特征变量进行相应的数据转换，并作为预测模型的特征变量进行预测。

· 达到的性能指标

样本集按照7：3比例划分为训练集和验证集，验证集主要用于样本内评估，确保模型的有效性。样本内模型效果：AUC：0.92，KS：0.68；

使用样本外观测（预留）进行验证，覆盖率：0.62，准确率：0.41，AUC：0.9，KS：0.62，模型效果较好。

· 风险控制方案

通过发送名单给风险预警系统，然后分发给各个分行的业务人员，分行业务人员根据名单及给出的违约原因，制定相应的催收政策；节省人力的同时，帮助行内完成风险控制。

通过借助大数据、机器学习等技术挖掘问题客户的行为特征，实现对企业客户贷后逾期风险早识别、早干预，聚焦关键问题客户，缩减风险排查范围，提高贷后管理针对性，从而提升小企业资产质量。具体的讲，覆盖率超过60%、准确率超过40%；在业务验证中，命中率远远超过了40%，帮助客户预警了近8亿元人民币的信贷资产。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。