“大数据”征信之思

扫描分享

本文共字，预计阅读时间。

近几年，伴随着互联网金融、大数据技术等相关概念的兴起，大量资本争相竞逐我国相对薄弱的征信行业。笔者近期有幸参加相关的研讨会，会中："征信本身一定是大数据，但不是大数据都能做征信"的观点引发了笔者的思考，现将一些想法记录如下。

笔者先以信用体系最健全的美国为例，来谈一谈传统征信模式。

通过多年的实践，美国为贷前分析和审查建立起了品德(Character)、能力 (Capability)、资本 (Capital)、条件 (Condition)、担保品 (Collateral)、稳定性 (Stability)的 "5C1S"评价体系以确定借款主体是否具备申请交易信用的条件，是否具有偿付本息的能力。

由此可见"5C"评价体系的数据主要以借款主体的基本信息，财务状况和过往借贷行为等与借款主体经济行为直接相关的信息为基础。

美国各大征信机构也正是主要搜集此类数据配合相应的模型提供征信评分服务。借贷机构借助各征信局或者类征信机构的相关评分和征信数据结合借款用途对借款人还款意愿的影响，评估借贷管理该笔借贷的风险大小以确定是否发放贷款。

与美国类似，以央行征信中心为例，我国传统的征信模式也主要以个人基本数据，金融数据（主要是信贷和信用卡相关数据），公共数据（包括税务、工商、法院、电信、水电煤气等部门的数据）以及个人信用报告查询记录，共四个类别为主对个人信息进行采集。

现如今，互联网技术的普及使得互联网以电子通信为载体的个人信息及其行为信息更易被采集；大数据技术的兴起和挖掘算法的不断完善，使得人们能够利用和处理更加复杂的数据。顷刻之间，大数据征信被国内争相报道，可谓一时无两。

确实，我们不得不承认互联网和大数据技术使得可以被用来建立评估模型的变量越来越丰富，如电商的交易数据、社交类数据、网络行为数据等。但是如果剖开了与经济直接相关的数据信息，纯粹的网络行为数据、社交数据就可以直接用于信用评估呢？我想，答案未必这般乐观。

这里笔者不得不先纠正一个被狭隘化的观点："大数据"，传统征信其本身就记录了个人大量的基本信息、行为信息，过往资产状况信息等。伴随着多年的累积，单一借款主体所对应的借款信息从数据量来说必然是十分可观的，所以笔者亦认同"征信本身一定是大数据"。

当然，这里大家一定会吐槽笔者，相信大家认为的大数据应该是多种多样的纬度，甚至是非结构化的数据。笔者在这里并不否认这些数据的价值，但是对于征信机构而言，真正重要的是如何使用这些数据以及这些数据是否能够产生合理的预测模型。

回到"不是大数据就能做征信"这个议题上来，就不得不提及FICO和ZestFinance，这两家近期备受国内媒体吹捧的国外征信机构。

FICO是传统征信机构的代表，其使用美国征信体系中已经搜集的数据充足、格式严谨的数据源作为模型的基础，以回归预测模型对借款主体进行评分，以供借贷机构参考。

宣称"将Google算法带入征信领域"，以大数据技术为基础的ZestFinance，无论是运用人工智能和大数据技术，还是上万指标的分析源，以及自主寻找逻辑关系，自我改善的能力，都与FICO形成了显著的区别。

但是从最真实的市场占有率来看，FICO依然占领着美国99%的信用评分市场，而ZestFinance目前服务人群不足市场的千分之一。

从ZestFinance的现实操作来看，笔者认为其服务的无信用记录人群在其内部形成了一定的封闭性，这些被服务的无信用记录的人群，自接受ZestFinance服务起，就在向其贡献经济行为数据，而限制ZestFinance扩张的痛点，可能也是受制于其对待开拓市场无信用记录人群经济行为信息的获取。

回到国内来，目前即将发放征信牌照的8家征信公司（腾讯征信、芝麻信用、拉卡拉等），其自身或者是集团股东都具有搜集个人基本数据，金融数据，公共数据中一至多中信息的渠道和能力。即使是不久前宣布投资ZestFinance的京东金融亦如此（京东白条，投资理财、消费金融等数据）。

由此可见，笔者认为泛互联网数据是有益的，但是以目前的技术水平来说，与经济行为弱相关的社交数据，行为数据是值得探索的市场，但是还不能单纯依靠这些类型的数据形成有效的评价模型。而对于互联网中存在的大量非结构化数据，如果不能寻找到有效的使用方法，前景依然不明朗，正如雷军先生在2014年接受采访时，关于小米存储的大量数据的观点："现在我扛得住，明年我也扛得住，后年我也扛得住，大后年要没价值的话，那我就破产。"

在统计学角度中，预测评估模型可靠性的基础是优质的数据源和可靠的方法论。征信模型亦是如此。互联网大量的数据是杂乱无章的，甚至残缺的（虽然缺失值是有价值的），以目前现有的方法论难以高效利用这些数据并产生可靠的评判，截止至目前，全球单纯使用非经济行为数据的建立评分模型并且KS值（全称Kolmogorov-Smirnov，常用来衡量模型辨别能力，数值在0到100之间，数值越大，模型越可靠。）超过40的公司屈指可数，所以笔者和大家期待相关技术和方法论得以完善。

其实，从征信最终的目的来看，无论是传统的回归模型还是方兴未艾的机器学习模型，其根本目的是反映借款主体违约风险的大小。而信用风险是信贷市场经营的基础，所以无论评分的高低，如果借贷机构能够控制风险，则其依然可以将资金出借给借款对象，这一现象，相信大家在银行办理借贷业务时，已经屡见不鲜了。

本文表达了笔者一些粗浅的见识，希望在大数据征信热潮中，行业的探索者们能够保持相对冷静和客观的看法，不随波逐流，淹没在资本的浪潮中。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。