专注金融科技与创新

专注金融科技与创新
国内资讯金融信息服务

揭秘被神化的个人征信报告的建模

国内资讯金融信息服务

揭秘被神化的个人征信报告的建模

本文共3358字,预计阅读时间120

个人征信报告有七大类基础信息,那么金融机构会如何利用这些信息呢?

一、第一阶段

当金融机构向人行征信报告平台提交查询申请,得到了某个人的征信报告,然后进行肉眼审查,来判断是否应该通过这个人的贷款申请或信用卡申请。

该阶段也称为原始人时期。

二、第二阶段 

金融机构查询了某个人的征信报告,将报告自动输入进自身系统,然后通过从征信报告中萃取出来的、事先制定好的策略和规则,电脑自动判断是否应该通过这个人的贷款申请或信用卡申请。这是原始到现代的过渡期,即智人时期。

三、第三阶段

在这个阶段,可以利用个人征信报告“数字解读”这个功能来做风控,它是利用了跨行跨业务样本开发的通用评分,这也决定了它并不完全适用于各家金融机构的自身业务特点。直接利用这个通用评分作为风险判断的时期,小编称之为现代时期。

四、第四阶段

这个阶段就比较高级了,金融机构将人行征信报告平台返回的报告输入进自身系统,系统将报文解析后,自动算出这个人的风险评分,然后电脑判断这个分数是否达到了审批的“及格线”,即阈值。

这个专有风险评分是在征信报告报文解析的基础上,经过特征工程加工和变量衍生后,训练模型,然后调整模型到风险区分度最高、可解释性最强、最稳定的状态,带有金融机构自身客群特点的评分。

小编将这个阶段,在老板看不清小字的情况下,偷偷称之为阿丽塔时期。(小百科:阿丽塔,一个来自未来的机械女孩,来自詹姆斯卡梅隆的最新电影《阿丽塔:战斗天使》)

若将征信信息应用于审批策略,报告里的每一项都需要提炼,电脑每“看完”一个报告需要设定很多策略;模型是将征信报告凝炼精华后,总结为一个分数。两种应用方式对比如下:

图1 个人征信报告应用场景对比

征信报告模型评分大有用处,让征信报告的应用不再局限于授信环节,报告“化身”为分数后,还可用于信贷风控的各个环节。小编经过经验沉淀,分析总结出两大类、九小类衍生变量,应用场景可以有贷前模型和策略、初始额度授予和贷中额度管理、客户价值分层以及贷后管理,如下图:

图2 个人征信报告衍生变量及其应用场景

但是另一方面,能直接从征信报告里挖掘的信息非常有限,因此衍生变量萃取是需要凝聚智慧与经验的过程。

下面这部分就要说如何做出“凝聚智慧与经验”的征信报告变量和模型了。

小编认为,征信信息变量绝不能机械式地生成,更加重要的是,如何持续产出创新性的衍生变量思路,让模型分数更加稳定耐用。

那么小编的团队经过多年深钻,总结了金融机构对于征信报告应用中的普遍痛点。(痛倒是痛,有多痛就不知道了,也不敢问,也不知道怎么问)

图3 征信报告衍生变量加工的痛点及解决方案

作为一家专业的金融科技服务商,通过处理和应用人行征信数据,可帮助机构判断贷款申请客户风险程度,并针对性地提供“秘籍”,也就是如何利用原始信息生产出有用的变量。

第一招:借力打力

征信信息对于金融机构的好处之一,就是能看到申请人在其他家的借贷历史,那么如何借助这样的历史,把坏人拒之门外呢?

融慧秘籍“借力打力”的含义是,通过模拟申请人在其他金融机构的申请通过率,推算这个申请人的信用风险,节省了自己测试这个人的力气。

小编教你如何模拟这个公式的分子和分母。(敲黑板)

解: 

已知1:提交第一次信用卡或贷款的申请的那一刻起,你就拥有了征信报告,也就是说征信报告会包括每个人几乎所有的征信历史。

已知2:征信报告中,有一类信息是信用卡申请查询或贷款申请查询次数,顾名思义,就是其他金融机构查询这个人征信信息的次数。而且重要的是,还要设置时间条件在这个变量上,比如一个月内或者半年内。

(这里要特别注意的是,“查询次数”虽然不代表“申请次数”,但为模拟“申请通过率”,借助“查询次数”来接近“申请次数”这个概念。)

已知3:同理,借力打力,用“贷记卡账户数”、“贷款笔数”等各类账户之和,来近似申请“通过次数”。同样地,设置时间条件比如一个月内或者半年内。

那么,衍生这个变量的大致思路如下

(这个公式仅用于举例说明衍生变量加工思路,不代表真实变量加工过程。)

第二招:八面玲珑

不是所有带有逾期历史的人都是坏人,忘记还款后,立即补还的情况还是存在的。为了避免以偏概全,这些被“误杀”的好人,应该被捞回。那么这些如何从征信报告中识别出来?

举个例子,如下图所示,某个人征信报告,其中包括了2015年09月-2017年08月的还款记录。“*”表示本月没有还款历史,“N”表示还款正常,“1”表示逾期1~30天。可以看到这个人在两年内,状态正常——逾期——状态正常的次数有3次,且都是30天内逾期,可以初步判断这个人属于“有价值的好人”,也可称之为“灰客户”。

图4 征信报告的贷记卡信息节选

这个例子告诉大家如何避免对所有逾期客户一概而论,而是对客户价值进行细分,各方面都照顾到,因此这招叫做“八面玲珑”。

这里只是举出了人行征信报告一代的例子,而在人行征信报告二代中,还款记录延长到了5年,而且增加了逾期金额等信息。通过分析客户在过去5年内的逾期行为记录,将不同逾期表现的客户进行细分,并加工为变量的难度将会提高。

小编这里秘籍还有很多,成果也有一些。

我们和一些金融机构的合作,完成了人行征信报告的衍生变量加工和建模项目,并最终交付了可喜的成果,具体流程如下:

1.创造模型中的X:利用上述“秘籍”们,团队帮助客户基于征信报告加工出来1万多个变量。

2.定义模型中的Y:同时,充分了解机构客户的业务类型、产品、客群特点、客户逾期表现及滚动率,定义出模型好坏标签。(若机构已有基于征信报告的策略,建议用已被征信策略筛选过的样本。)

3.开始建模:用Y标签进行建模,因为征信信息与信贷业务强相关,逻辑性较强,一般用逻辑回归方法(LR)进行征信模型建模。

4.模型验证:模型搭建完毕,下面就是检验变量区分度、可解释性和稳定性的时刻了。

1)区分度验证:

我们把模型分数按从大到小排序,然后,温柔又快速地,把他们平均切分为20组,再把逾期信息和分数一一对应好,就可以看到每组分数抓到的坏人和好人个数占比,这里有个指标可以描述模型抓住坏人的准确程度——KS。同类的区分度指标还有AUC、Gini等。

对多家金融机构进行专有征信评分建模,成功的模型效果可参考下图:当机构拒绝25%的申请人的情况下,捕获其中51%的坏人。

图5 征信报告专有模型效果案例

金融机构需要在申请通过率和业务收益之间做一个平衡,来测算最适合自身业务要求的坏人捕获率及申请通过率。

2)检验变量可解释性:如下是征信报告中的“(二)逾期及违约信息概要”和“(三)授信及负债信息概要”。

可以看出,例子中的这个人曾有逾期1个月,金额1619元的历史,还有两笔将近71万元的贷款未结清,而其他家总共授予约62万元的额度,已用额度约22万元等诸多信贷类信息,反映出了这个人负债在身,有轻微逾期历史的特点。此类信息为判断客户的信用风险和还款能力帮了大忙,因此基于征信报告做出来的模型,可解释性相比其他数据来说是相对较强的。

图6 征信报告的逾期及违约信息概要案例

3)稳定性验证:

小编认为,建模时并不追求算法的“高大上”与技术的“酷炫”,关键在于针对不同的数据源和不同的金融风控应用,能够把不同的算法和技术应用得恰到好处,避免过度拟合。一味迷信技术是行不通的,实验室中的好模型,实践中的差模型,我们见得太多了。

因此,在建造模型的过程中,不仅追求对数据的极致化挖掘,而且要将模型搭建得非常稳健,确保模型上线后具有足够的风险区分度和时效性。(建模是个技术活,更是个艺术活和良心活。)

经过了检查PSI(最常见的模型稳定度评估指标),或者在跨样本及跨时间窗口验证集上检查模型Gini和KS等步骤后,如果得到了一个表现稳定的模型,那么专有征信评分建模就基本可以完成了。

用微信扫描可以分享至好友和朋友圈

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。

发表评论

发表评论

您的评论提交后会进行审核,审核通过的留言会展示在下方留言区域,请耐心等待。

评论

您的个人信息不会被公开,请放心填写! 标记为的是必填项

取消

征信报告留下污点,普通人如何拯救?

苏宁金融研究院 06-05

解读新版征信报告:“忘交水电费”上征信?不存在的

杨希 05-31

二代征信报告快上线了!这四种投机套利行为将彻底失效

苏宁金融研究院 05-15

起底个人征信

苏宁金融研究院 05-10

一文解析“政府+市场”个人征信业格局

麻袋研究院 03-29

版权所有 © 清华大学五道口金融学院互联网金融实验室 | 京ICP备17044750号-1