大数据征信的应用和启示之二：再谈ZestFinance的基于大数据的信用评估技术

扫描分享

本文共字，预计阅读时间。

导语：2014年11月，本文作者有机会和ZestFinance的创始人和首席执行官梅里尔（Douglas C.Merill）先生进行了面对面的交流。这位普林斯顿的认知学博士阐述了ZestFinance利用大数据进行信用风险管理的基本框架。基于和梅里尔梅里尔先生的交流，本文对ZestFinance的商业模式和大数据挖掘技术进行进一步的解读，希望能够对中国未来的大数据征信有一些启示。

信息技术的进步驱动了消费者信用信息的可得性

征信（Credit reporting或者是Credit reference）是指依法收集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用报告、信用评估、信用信息咨询等服务，帮助客户判断、控制信用风险，进行信用管理的活动。征信的主要目的是解决交易双方信息不对称的问题，进行信用风险管理。征信业与信息技术联系密切，在欧美甚至被归类为信息产业。信息技术的进步驱动了信用风险管理水平的提高，促进了信用的可获得性。

欧美发达国家的个人征信（或者是个人消费者的信用风险管理）的发展可以分为三个阶段：

第一个阶段（1950年以前）：定性信用风险决策。1950年之前，审贷过程是根据放贷人的经验和对借贷人的了解，靠人工来完成的。这是一种定性的决策，效率比较低，没有一个客观统一的标准，放不放贷款完全依赖于信贷员个人的经验。审贷的标准因人而异，不具备客观性和科学性。从图一（以消费信贷为例）可以看出在这一阶段信贷市场的发展缓慢，总的信贷金额规模较小。

第二个阶段（20世纪50年代—70年代）：局部风险量化分析。1956年信用评估数据挖掘公司费埃哲（FICO）成立，来自斯坦福的工程师费尔（William Fair）和数学家埃萨克（Earl Isaac）进行了数学分析模型和工程实现的整合，两年之后FICO公司卖出了它的第一个评分系统。利用FICO评分模型，银行等信贷机构可以进行自动化的批量审贷，增加了信贷的可获得性，减少了违约率，促成了消费信贷的第一次革命。如图一所示，在该阶段，消费信贷市场得到了快速的发展。但由于银行只是利用内部的数据进行FICO个人评分建模，因此FICO模型在解决信贷交易双方信息不对称问题上的作用仍有局限。

第三个阶段（1980年以后）：全局量化风险分析。1980年之后，征信机构Experian收集了不同信贷机构个人消费者的信贷信息，形成了消费者的全局信息。不同的信贷结构之间共享全局信息，可以全面地了解个人消费者的信用状况，更好地解决了信息不对称问题，促成了信用风险管理的又一次革命。从图一可以看出，自1980年之后，消费信贷市场得到飞速地扩张。但在该阶段，由于征信机构不能为缺少信贷信息的少量个人消费者提供全局信用记录，因此这类消费者无法享受信贷机构的正常服务。

图一：美国消费信贷市场的发展过程

目前，信息技术（IT）的突飞猛进使人类社会进入了大数据时代，更多维度的数据和不同层次的数据都可以用来挖掘和分析。挖掘数据中大的价值，使其为我们的工作和生活服务，需要有更好的挖掘和分析能力。机器学习的算法和模型可以实现对大数据的深入挖掘和分析。机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。梅里尔先生认为大数据技术加上机器学习算法使个人消费信贷的信用风险管理进入了第四个阶段。在这个阶段，可以从大数据中挖掘出更多的消费者信用信息。即使是传统征信体系不能覆盖的一些缺乏信贷记录人群的信用信息，也能从大数据中挖掘出来。

ZestFinance的基本商业理念

作为一家创新型的科技金融公司，ZestFinance自创立以来，由于其独特的商业理念而不断受到投资界和互联网金融领域的瞩目。

为弱势群体制造信用的普惠金融思想

ZestFinance认为，它的使命是为每一个人创造公平而且透明的信用信息。ZestFinance最初的服务对象是只能使用高利贷的人群（称为借贷日贷款人群），通过大数据挖掘出他们的信用信息，帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人，希望通过搜集证据，证明信贷信息不完整人群的真正的信用状况，，进而帮助他们实现享受正常金融服务的权利。

非传统征信视角看信用

个人征信的目的是通过搜集数据来挖掘出消费者已有和潜在的信用信息，数据和具体的技术只是征信的手段和工具。消费者的信用状况是和其信贷记录联系最紧密，是强相关的，所以传统征信从消费者的信贷记录挖掘其信用状况。但是消费者的信用状况和其信贷记录并非是一一映射的关系。消费者的信用状况还会和消费者的其它信息和行为有联系，尽管这种联系可能较弱。

图二：大数据征信视角和传统征信视角的比较

图二展示了ZestFinance公司的大数据征信的视角。和传统征信相同，对消费者的信用评估也是基于两个基本面的信息：消费者的还款能力和消费者的还款意愿。所不同的是，传统征信中，数据依赖于银行信贷数据，而大数据征信的数据并不仅仅包括传统的信贷数据，同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征，这些相关性描述风险特征的抽取与筛选是ZestFinance的技术核心。相比于传统征信数据的强相关性，这些大数据征信的数据和消费者的信用状况相关性较弱，ZestFinance就利用大数据技术搜集更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据，可以对传统征信无法服务的人群进行征信，实现对整个消费者人群的覆盖。

优于银行的大数据挖掘技术

ZestFiance的优势在于其强大的数据挖掘能力，能开发出新颖的信用评估模型，从大数据中挖掘出更多不易被发现的消费者信用信息。尽管ZestFinance公司自运营以来取得了不错的业绩，但梅里尔先生还是具有专业学术人士特有的谦逊严谨的风格，他阐述了一些ZestFinance的发展弱势，即：公司规模还比较小，目前直接服务的人群只有10万人左右；不拥有银行丰富的个人消费者数据，但其本身所拥有的数据却可以被银行通过正常手段和渠道获得。

对于大数据的理解和利用

不同的应用对大数据有着不同的理解，目前也没有一个统一的概念。梅里尔先生认为“数据多”并不是“大数据”，能够利用IT先进技术将碎片化的信息整合起来才能形成真正有用的大数据。这种对大数据的理解特别适用于征信业，因为征信的基本过程也是将分散于不同信贷机构看似用处不大的局部信息整合成为可以完整描述消费者信用状况的全局信息。

值得指出的是，ZestFinance虽然利用大数据技术进行征信，但是主要利用的还是结构化的大数据，对于复杂的大数据类型，例如文本数据和社交网络数据，利用得比较少，主要原因是由于这些复杂的大数据和ZestFinance所服务的消费者的信用风险相关性太弱了。这种现象其实也被其他互联网金融的征信实践所验证，例如最大的互联网P2P公司Lending Club最早从脸谱（Facebook）平台登陆信贷市场，希望通过对社交网络的数据进行信贷审批，结果效果很差，难以为继，最后只好回归传统的信贷手段发展。

提文：ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力，将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

ZestFinance的技术分析

ZestFinane的核心业务是消费信贷审批，主要客户是次级贷消费者，主要的竞争对手是银行或典当行。ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力，将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

采用了基于多角度学习的评分预测模型

传统的信用评分模型一般拥有500个数据项，从中提取50个变量，利用一个预测分析模型做出信用风险量化评估。而在ZestFinance的新模型中，往往要用到3500个数据项，从中提取70,000个变量，利用10个预测分析模型进行集成学习或者多角度学习，进而得到最终的消费者信用评分。如图三所示，ZestFinance的数据源是大数据，可以生成数以万计的风险变量，然后分别输入不同的预测模型中，例如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型等。每一个子模型都从不同的角度预测个人消费者的信用状况，克服了传统信用评估中一个模型考虑因素的局限性，使预测更为细致。

机器学习方法在生产、科研和生活中有着广泛应用，而集成学习则是机器学习最近的热门研究方向。集成学习是使用一系列算法模型进行分析预测，并使用某种规则把各个模型分析结果进行整合从而获得比单个算法模型更好的预测效果的一种机器学习方法。如果把单个模型比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。由于融合多种信息和综合多种决策机制，经过集成学习得到的分析预测要明显优于单一模型。不同角度的信息存在关联，各自包含互补信息、多角度学习的过程，相当于一个不断搜集证据的过程，加强互补信息，进行信息融合。例如，两个独立的评分模型对利润提升的能力分别是16.9%和9.4%，传统信用评估中，第二个模型可能被弃用，但如果发现这两个模型分别包含互补信息，将这两个模型的结果进行融合，可以将利润提高至38%。

这些多角度学习中每一个子模型也没有采用传统的逻辑回归, 而是机器学习中的其它的预测模型（该模型的细节对于ZestFinance是核心机密）。ZestFinance的信用评估中没有利用逻辑回归模型的原因是大数据征信的数据比较零碎，而且变量过多；以及所抽取的风险变量分布不能满足正态分布。

图三：ZestFinance的信用评估模型解读

评分模型不断更新

当ZestFinance不断地进行数据搜集和增加新数据源的同时，评分模型也在不断更新。如表一所示，从2012年到目前，差不多每一个季度就会新推出一个新的信用评估模型。而且模型是以每一位不同的开发者命名，目前已经有14个模型。ZestFinance评分模型的改进也提高了其信用风险评估水平。虽然这些新的模型仍然会遇到数据充足性和数据可得性的挑战，但是模型的持续改进还在进行中。

评分模型不断地细化

ZestFinance最早从事的是信贷审批，仅有信贷审批评分模型，随后不断细化其评估模型来支持不断推出新的信用风险业务。如表三所示，2013年第一季度推出了催收评分，2014年第二季度推出了市场营销评分；2014年推出了汽车贷款和法律催收，目前已经开发出八类信用评估模型，用于不同信用风险评估服务。

(原始参考资料，以ZestFinance公司的研发工程师命名的算法模型)

表一：ZestFinance的信用评估模型基本情况（来源于ZestFinance公司资料[a1] ,表中列出的是ZestFinance公司的算法模型，都是研发出该模型的工程师命名）

挖掘丢失数据，变废为宝

丢失数据（Missing data）指的是机器学习中某一些数据项因为种种原因造成了缺失，较多的丢失数据会给建模过程带来挑战。由于ZestFinance利用多维度的大数据，所以丢失数据的现象更加突出。ZestFinance处理丢失数据也有其独特之处。首先ZestFinance不断改进其评分模型，增强其处理丢失数据的能力，最新的评分模型可以处理超过30%的丢失数据。其次，ZestFinance另辟蹊径，充分利用丢失数据之间的关联、和正常数据的交叉，探寻数据丢失的原因。通过这样的深耕细作，获得了一些有用的消费者信用信息。当然，这种做法要求使用于特定环境，要结合信贷业务，并对消费者的行为模式有深入的理解。

ZestFinance和竞争对手的比较

根据调查，80%左右的信贷风险来自信贷审批环节，一旦消费者获得信贷，后续的管理只能控制20%的风险，由此可见科学的信贷审批管理十分重要。开发高质量的信贷审批评分模型，进行科学的审批风险管理，可以大幅降低坏账率，并取得比较好的经济效益。虽然ZestFinance并未透漏其坏账率，但在实际应用的过程中，和其竞争对手银行或典当行的放贷者相比，还是取得了一些不错的结果。

1．获得贷款顾客的成本是竞争者的25%。根据JMP2012的行业报告，对于一个在线的借贷者来说，获取一个顾客的平均花销应该在250美元和500美元之间。如图四所示，2014年，通过ZestFinance的服务，获得顾客的成本稳定在100美元左右。

图四：ZestFinance获得顾客的成本（图四至图七来源于ZestFinance公司资料）

2．首次还贷违约率（First pay default, FPD）低于竞争者。如图五所示，蓝色曲线为ZestFinance的首次还贷违约率，红色、灰色和黑色的曲线表示其他竞争对手（对于银行放贷者来说，FPD已经比较稳定）。从图五可以看出，从2012年初起，ZestFinance的首次还贷违约率还在不断波动，有时高于第三个竞争对手，随着模型的不断改进，到2013年已基本稳定，明显低于三个竞争对手。

图五：ZestFinance的首次还贷违约率和其竞争对手比较

3．不断提高客户的投资回报率。ZestFinance最初的投资回报率在100%左右，随着模型的不断改进，目前的客户投资回报率达到了150%以上，如图六所示。

图六：ZestFinance不断提高客户投资回报率

4．投资回报率高于竞争对手。图七展示了ZestFinance在不同时间和其竞争对手在投资回报率方面的比较，可以看出ZestFinance的投资回报率明显高于行业标准和其竞争对手。

图七：ZestFinance的投资回报率高于竞争对手

提文：相比而言，目前国内的信用风险管理，惩罚性太强，一种类似“有罪推理”的思路大行其道，这种方式可能简单有效，但是并没有把征信的作用全面发挥出来。征信的真正作用不仅仅是惩戒失信，更重要的是褒扬诚信。

对中国的征信业的启示

ZestFinance通过技术创新和金融风险管理的创新，带来新颖的商业理念和技术路线，对于正在起步的中国征信业以及互联网金融中的风险管理有一定的启示作用。

一、征信勿以“惩罚性”为目的。ZestFinance以大数据征信技术，假定每一个消费者都是“好”人，不随便设黑名单进行“有罪推理”。ZestFinance为所有的消费者挖掘信用，用科技的力量推动普惠金融的发展，打破信贷机构为富人服务的怪圈。相比而言，目前国内的信用风险管理，惩罚性太强，一种类似“有罪推理”的思路大行其道，这种方式可能简单有效，但是并没有把征信的作用全面发挥出来。征信的真正作用不仅仅是惩戒失信，更重要的是褒扬诚信。

二、定位于特定的服务人群。ZestFinance的主要服务对象是约占人口5%的、信用评分在500分以下的次级贷人群。通过对这部分消费者的深入理解，筛选大数据描述信息，所开发的也是针对这部分人群有效的信贷审批模型。在机器学习领域没有特别通用的分析模型，但是往往有对特定范围内有效的模型。所以，合理地定位服务人群和深入理解服务对象是开发征信分析模型乃至开展征信服务业务成败的关键。

三、加强信用分析模型的研发。ZestFinance优于其竞争对手和传统信贷机构的一个重要的原因是强大的信用评分模型的开发能力：基于多角度学习的预测模型，模型及时更新而且不断细化。相比而言，中国的信贷审批，或信用风险管理，层次不齐，从定性判断到简单的量化决策都有，总的来说量化分析不足，而且征信机构的信用评分还未推出。只有加强对量化的信用风险分析技术研发投入，才能真正实现对消费信贷的专业风险管理。同时，值得强调的是，大数据时代，没有现成的免费午餐，数据和模型需要提炼，需要数据科学家的人工参与，即使把ZestFinance的模型拿到中国来，也不能直接用。对数据和消费者的理解和数据挖掘技术的掌握都是建模过程中不能省掉的功课。

同时我们也要对大数据征信以及ZestFinance有一个全面的认识：

一、征信数据是天然的大数据，无论是从Gartner提出4V理论还是本文中梅里尔先生对于大数据的理解。大数据征信不仅仅包括利用信用评估，还包括征信大数据的采集、征信大数据的管理、征信大数据的安全以及征信大数据的可视化等等。同时国外传统的征信机构和新兴的互联网金融机构也都在探索大数据征信的不同方式。例如，FICO公司的研究表明，将社交媒体和电商网站拥有的在线数据、移动运营商的手机使用数据与传统征信数据结合用于风险建模，提高了模型对客户的区分度，在降低拒贷率的同时，提高了风险预测能力。FICO目前正在与少数金融机构合作，在小范围内使用这种模型。美国的一家新的评分公司更是利用非传统的数据和心理测量学的分析和建模方法来进行信用评估。

二、ZestFinance并非一个征信机构，其主要业务也是征信产品中的信贷申请评分。在其进行信用评估时，并没有直接从征信机构获取数据，建模中的30%数据来自于不同的数据代理商，这些数据和征信数据相似。而且ZestFinance并没有向征信机构报送数据，主要的原因可能是ZestFinance所用的数据项维度太多，面向特定人群，时效性强，不符合征信机构的数据的通用、成熟、稳定、信用相关性强的特点。

三、对于征信大数据的利用并不仅限于机器学习。人工智能的其它分支、复杂科学、心理测算学都可能是未来利用大数据建模进行信用评估的理论基础。

四、ZestFinance也面临着合规性挑战。由于从事的是金融业务，ZestFinance就需要像其竞争对手（例如传统银行）一样，接受监管。目前美国借贷的监管环境非常复杂，联邦法律下还有各州的法律并行。所以ZestFinance还在继续研究监管机构和其他因素扮演的角色，在开展大数据征信的同时努力满足合规性的要求。

文/刘新海、顾凌云、丁伟本文编辑/邢缤心、贾红宇
刘新海：中国人民银行征信中心博士后
顾凌云：Turbo Financial Group联合创始人、首席风险官
丁伟：中国联通网络技术研究院高级工程师

（本文仅代表作者个人观点，与所在单位无关。）

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。