清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

案例名称

小微企业贷后风控预警

案例简介

与以往风险预警系统不同的是,一般风险预警系统是基于规则来实现预警,在本项目中,通过模型来填补规则的不足,使风险预警系统更加完善;模型本质上是不同于规则的方法,可以同时对成百上千个变量进行综合处理,这点是规则达不到的。本项目使用的算法为GBDT+LR模型,第一个GBDT模型是决策树的融合,第二个模型是基于回归的方法,第一个模型的输出作为第二个模型的输入,提升模型效果。

此外,本项目形成了一套全流程的风险预警体系,可以预测未来3-6个月内客户的风险情况,给客户经理提供参考作用,辅助客户经进行贷后处理。模型的覆盖率可以达到60%以上,准确率可以达到40%以上,大大高于同行业的小微企业风控预测模型效果。

创新技术/模式应用

搭建数据科学平台:推动解决全行机器学习建模门槛高、效率低、管理难、不自主的问题,促进全行数据建模架构统一和建模经验的分享与复用。本项目主要涉及的建模流程中核心技术主要分为两方面,分别是变量降维中的变量聚类方法以及在建模过程中使用的GBDT+LR算法,变量聚类能快速有效的进行变量挑选,选出最直接有效的变量,以此来提高运行效率和整体性能;另外一个关键技术是GBDT+LR算法,提高模型的准确率及稳定性。

· 变量聚类

变量聚类是变量降维过程中一种重要方法,是一种基于主成分分析的方法。建模变量数量不同,建模过程的耗时也会不同。在实际构建模型时,变量数量可能上千个,当变量数据足够庞大时,这个时候采用变量聚类则可以快速实现变量的降维,然后再基于降维后的变量进行建模。此时,模型的运行效率会大大提升。

在本项目进行变量聚类的变量挑选,首先对项目涉及变量进行变量聚类,划分出一定类别,每个类中变量数目为一个或多个;然后,计算每个变量对Y变量的影响程度(随机森林重要性),在每个类中挑选出影响程度最高的变量,作为该类的代表变量。

· 建模—GBDT+LR

GBDT+LR本质上是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。

点击率预估模型涉及的训练样本一般是上亿级别,样本量大,模型常采用速度较快的LR。但LR是线性模型,学习能力有限,此时特征工程尤其重要。现有的特征工程实验,主要集中在寻找到有区分度的特征、特征组合,折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合,减少特征工程中人力成本。

GBDT+LR 由两部分组成,其中GBDT用来对训练集提取特征作为新的训练输入数据,LR作为新训练输入数据的分类器。

项目效果评估

在小微企业建模过程中,主要通过变量聚类来达到变量降维目的,大大提升建模效率,通过GBDT+LR建立模型,提高预测效果的准确性及稳定性。

· 实现的核心功能(预测)

将要预测客户的输入特征按照预测模型的变量重要性进行选择,同时,对选定的输入特征变量进行相应的数据转换,并作为预测模型的特征变量进行预测。

· 达到的性能指标

样本集按照7:3比例划分为训练集和验证集,验证集主要用于样本内评估,确保模型的有效性。样本内模型效果:AUC:0.92,KS:0.68;

使用样本外观测(预留)进行验证,覆盖率:0.62,准确率:0.41,AUC:0.9,KS:0.62,模型效果较好。

· 风险控制方案

通过发送名单给风险预警系统,然后分发给各个分行的业务人员,分行业务人员根据名单及给出的违约原因,制定相应的催收政策;节省人力的同时,帮助行内完成风险控制。

通过借助大数据、机器学习等技术挖掘问题客户的行为特征,实现对企业客户贷后逾期风险早识别、早干预,聚焦关键问题客户,缩减风险排查范围,提高贷后管理针对性,从而提升小企业资产质量。具体的讲,覆盖率超过60%、准确率超过40%;在业务验证中,命中率远远超过了40%,帮助客户预警了近8亿元人民币的信贷资产。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。