清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

成立背景:解决小微企业融资难的困境

小微企业在中国长期存在融资的困境,一方面,借款方如银行需要大量的人力成本来做尽职调查,而小微企业一般贷款的额度较低,这就导致了前者的投入和产出比不经济;而更多的小微企业的财报存在注水和造假的现象,这更需要大量的人力成本进行辨别,加重了前者问题的严重性。机器学习等自动化技术的发展和兴起为小微企业的融资困境带来了曙光,换言之,这是一个可以用机器学习等算法有效降低人力成本,解决效率和收入之间矛盾的领域。

冰鉴科技的顾凌云正是看到了这个行业的机会,离开已经工作多年的美国回国创业。在创办冰鉴科技之前,顾凌云一手搭建了美国知名大数据个人信用评估公司Zestfinance的信用评估模型,也是小企业借贷平台Kabbage的首席科学家。在此之前他毕业于美国的卡内基梅隆大学,获得计算机博士学位。

主营业务: 定位于风控评估模型的SaaS平台

冰鉴科技主要定位于输出风控评估模型的SaaS平台,为银行、小贷机构和互联网金融机构等提供风控解决方案。目前平台拥有两套评估系统:针对于企业和针对于个人的解决方案。在顾凌云看来,很多小微企业的评估重点也在于企业主身上,因此企业的征信从方法论角度来说是包含个人征信的。

针对小微企业,冰鉴科技主要提供三级量化风险评估报告。一级风险评估报告包含企业指数,工商指数和舆情指数。二级风控评估包括企业财务报表分析、纳税信息分析、银行流水分析和法人/实际控制人分析;三级包括现场的尽职调查和将企业数据放入模型进行进一步的评估分析。

这三类报告的区别是,第一级的信息是不需要企业授信即可得到,从网上拿到的文本分析,语义分析舆情分析等拿过来做判断。其主要是为精准营销做准备,使得金融机构拿到了企业的名单后能够在不去企业现场的情况下对其有一个初级的判断。一级量化报告相当于是一个金字塔的底端,帮助金融机构排除企业,使得金融机构面对的客户群越来越精准。

第二级的信息则需要企业主的授权,小微企业和企业主息息相关,因此一定要看企业主的基本信息再延展出来,再加上企业的运营信息,生产型企业的ERP,物件的流转,对应的一些财务数据等,也包括得到国家国税局的税务信息综合评估企业的水平。

第三级是前面的信息都已具备,但是金融机构因为企业要求额度高或者对企业所在的行业不了解,还是对企业不放心,因此冰鉴科技便提供IPC尽调,将所谓的三品三表变量重新放到第三级的模型中。

冰鉴的个人风控解决方案则包括反欺诈模型,个人信用评估模型和贷后预警处理模型三个模块,其反欺诈模型基于百万数据提炼的上千条反欺诈规则和模型学习出来,而个人信用画像则通过由来源于银行、P2P、小贷和消费金融公司上百万真实的贷后数据训练产生。

核心竞争力:对于数据的处理能力

冰鉴科技的核心竞争力在于对数据的处理能力。一般来说,风控评估企业的评估可以分为数据收集,数据处理(包括数据清洗,特征工程等)和建模三个主要模块。而数据的处理能力则是风控企业的核心优势体现所在。

金融领域与现在运用较为成熟的语言识别和人脸识别领域不同,后者是一个具有明确全集信息的领域,所有处理无法跳出这个边界。但是金融不同,其数据的收集和处理是一个需要经验性处理和判断的过程,例如实际处理中收集到的一个维度,如果指向性极强,最终把一些算了半天才算的信息已经体现出来了。

风控建模中的特征工程可以完全通过机器来学习,但是一些人工的处理变量实际上是需要的,实际操作中,工程师要去看这个变量是否有意义,很多不能被选进去的变量单独拎出来作为其他下一个级别的目标,是有用的,但是糅合在一起是不行的。顾凌云举了一个例子,在实际处理过程中有些变量可能直接被没有金融背景的工程师扔掉了,原因是该变量覆盖率不够高。但是有一种做法是将缺失值使用同一个量去替代,使之成为非常强的变量,整体的entropy(熵)降低。因此工程师便会考虑将其加入模型,但这就意味着一个本身缺失值很高的变量反而变为了一个很优秀的变量,这时候需要做其他特征向量的处理才能把它用进去,这就需要有经验的人来判断缺失值的替代是否有意义。是否有有经验的,懂金融的工程师存在,这就是专注垂直化领域机器学习处理方案和通用型平台的区别。

模型的选择方面,也不是模型越复杂越好,如果数据本身质量较好,利用逻辑回归也是完全可以的,这也需要大量的经验进行判断。目前平台采用boosting和bagging的算法拟合的较好,这类模型是现在机器学习在信用评估领域中使用最前沿的模型之一,其优势在于覆盖纵向和横向的信息,是一种弱学习器,每一个弱学习器总有一部分有错误,这样就能通过下一个的弱学习器有效的学习前面的错误再往下改进模型。

展望征信市场:数据孤岛会逐渐消失,专注于技术的输出服务

和美国的市场环境和监管要求不同,目前中国对于模型的可解释性要求不强,很多公司重视的是硬指标,例如坏账率,大家对于模型的表现要求更多。同样的,目前征信市场对于个人数据隐私保护也还没有出台相关的方案。顾凌云认为,在未来,数据的使用可能出现三个趋势,一个是有些个人隐私数据类型不能在模型里使用;二是政府数据为背景和依托的公共数据的趋势是越来越透明;三是数据的所有权将明确的定义为个人,平台在个人用户的授权的情况下,是可以使用用户的数据进行评估的。因此从整个征信角度的产业链来看,前端数据的壁垒将会逐渐消失。数据最后就是一个标准的期货,跳过一定时间窗之后就可能没有独有的数据优势,而是价格的差别的优势。随着法规越来越明确的建立,对于所谓认为数据是在私有环境下产生的一定是有很大打击的。

顾凌云表示,征信公司的好处在于不受经济下行空间的影响,冰鉴科技的是一个开拓者,优势在于永远引别人进门,但是缺点是入行者终会离开,开拓者永远需要带着新的入行者进入这个领域,但是没关系,每个企业的基因不一样,冰鉴科技的基因就是高科技公司。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。