清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

2017年9月17日,由清华大学五道口金融学院、清华大学国家金融研究院主办的“第二届中国金融科技大会(2017)”在京举行,冰鉴信息科技有限公司创始人、董事长兼首席执行官顾凌云在题为“金融大数据的发展与挑战”的主题论坛上发表演讲。未央网作为官方媒体对大会进行全程报道。

顾凌云分析了金融大数据存在的挑战很多,机器学习、深度学习为什么被大家认可。他提到稀疏样本如何高精度的建模是做小微企业征信中挑战之一,可以一定程度上用深度学习来解决。监督学习和无监督学习二者之间平衡,才能做好建模。他认为消费金融可以从流量、风控技术和资金成本三个方面来理解。要做征信这个行业,要坚持做独立、第三方、高科技和轻运营的平台。

以下是现场演讲实录:

刚才五位嘉宾分享完了以后,我做一个发言和总结。大家可以看一下,今天这个题目是“金融大数据的发展与挑战”,刚才我也说了我们要讨论一下“挑战”。

先从我的个人经历说一下“发展”吧。

我在21世纪初的时候,到卡耐基梅隆的计算机学院去读博士,那个时候其实还是很苦哈哈的,我们读的时候叫Data Mining,其实还没有大数据这个单词的出现。所以,当科比布兰恩特退役的时候他说,我之所以能成功是因为我可以看到每天4点钟的洛杉矶长什么样,我心中是非常不懈,我想你才看4点钟的洛杉矶算什么?我1点、2点、3点、4点、5点、6点的匹斯堡都看过,这其实没什么。

但突然之间到了2012年,大数据这个单词被《纽约时报》推出来以后,突然发现当年的丑小鸭也有可能变成天鹅,所以突然之间我们这个专业就火了,这是发展。

当然挑战还很多,尤其是当跑马圈地和野蛮发展到了一定程度以后,监管和创新二者之间的角色就改变了,这个时候创新变得不再重要,而监管会变得更加重要。

所以,今天我的话题会从大数据(尤其是机器学习和深度学习)在金融当中的应用,同时包括我对消费金融的一点理解来展开我今天的讨论。

这是我们自己做的一些产品,当然今天我不会给我们自己这边做广告,所以标准产品、定制化解决方案和模型,三方面最终都是希望能够通过给金融和放贷机构提供小微企业和个人的征信评估,来解决现在最难的痛点,就是普惠金融当中没有人行征信报告的个人,应该怎样对他们评估?以及,在银行借不到钱的小微企业,如何能够帮到他们借到钱?

金融大数据存在的挑战很多,为什么到今天为止有机器学习、深度学习呢?那是因为:

首先,大家可以看到,以前很多非结构化的数据,我们是没有办法处理的,比如说声音、图像,但现在有了深度学习以后,声音、图像等等都可以成为我们反欺诈和征信当中非常重要的一环。

其次,很多数据没有办法转换成可分析的数据,这就是为什么我们在招人的时候,特别喜欢招航空系和物理系的原因,因为他们对于这种稀疏矩阵的处理可以做得很好。当然了,对于特征工程的高度依赖,这个下面我会讲到,是从机器学习向深度学习迈进当中最重要的一步,可能很多不做这个专业的人都不太明白,机器学习和深度学习的区别在什么地方,下面我会讲到。

同样,对于稀疏样本如何高精度的建模?这是我们在做小微企业征信当中最需要面临的挑战之一,这也可以一定程度上用深度来解决。当然了,深度学习不是一个筐,不能什么东西都往里面装,所以也并不是所有问题都可以解决的。

所以,最后我们仍然希望有监督学习和无监督学习,二者之间平衡,才能把整个建模的过程做好。

AI技术现在有了很大的发展,这些受时间所限我就不再详细多讲了,大家可能都能看到,这些都是平时在新闻、媒体报道当中耳熟能详的。

消费金融,我想简单的说两句。消费金融原则上来讲,大家可以把它分成3个不同的方向:

1、流量。

2、风控技术。

3、资金端。

今天,很多消费金融公司,包括当年我在IDG投资的时候,我都非常注意地看这3者之间关系是怎样相辅相成的,你看在今天这3个关键的点当中,是不是我3个都要,才能把消费金融做好?我个人认为不是的。其实只需要把第1个和第3个做好就可以了,这也是看一个消费金融公司能不能成功最重要的。

1、流量。

我一直相信,自带小宇宙、自带流量,或者流量能够非常便宜获得的消费金融公司,在整个竞争当中会具有非常好的前景。比如说,像巨额流量入口的360、美团等等,所有这些公司在天生一开始的时候就是含着金钥匙初升的,它的流量很可能不要钱,甚至它可以把好的流量淘完了以后再把差的流量卖给别人。对于这样的公司,在消费金融当中会占有先机。

跳过第2个环节讲第3个环节,也就是资金的成本。

3、成本这个事情在一开始的时候可能无所谓,但是慢慢地随着竞争越来越白热化,很可能前端的获客成本从100块变成200块、300块,后面的资金成本可能从6.5变成7.5变成8.5了,所以你每能比别人降低0.5个百分点,你的竞争优势就会好很多。

而这个时候我们再看一看,第1点和第3点二者之间的共同在什么地方?第1点和第3个点最共同的是,你没有办法形成一个标准化的解决方案。所以,对于任何一个消费金融公司而言,它们真正需要核心解决的问题就是你的流量是否便宜,以及你的资金是否便宜。

相反,反而中间的第2点技术没有那么重要,因为它其实可以用到像冰鉴这样的公司,退一万步说,没有找到冰鉴,找到其它公司了,也能瞬间把你从小白变成行业的前50%,当然找到冰鉴可能就是行业的0.5%了。所以,二者之间还是有一定差异的。

在消费金融当中,很多人认为,既然是普惠金融、消费金融,那么我只要对个人C端报征信做好就可以了。这是个很大的误区,真正想把消费金融做好,要做两块:对个人C端的征信只是其中的一点,而最重要的一点,是对于小B(小微企业)的征信,得保证小微企业本身不具有系统性的欺诈风险。在医美行业当中,最糟糕、最糟糕的就是看到,其实你根本就没有割双眼皮,在牙科当中你也没有种牙,但是1000块、2000块、3000块,所有的钱都被欺诈走了,这就是系统的小微企业结合起来以后欺骗消费金融公司。所以,二者之间要进行完整的整合才可以。

讲完了消费金融的一点认识之后,下面我们再看一下,在今天的算法当中,我们为什么会讲到挑战?我在美国生活了17年,我在ZestFinance负责风控的时候,我最好的朋友来自于两个机构,美国政府部门(CFPB、FTC),这两家公司主要就是千方百计的阻挠你的创新。当然,一定程度上我认为它们是对的。因为它们发现,当AI技术在充分使用以后,很多原来的红线现在被技术潜移默化地突破了,这就是今天或者明天可以看到,中国的金融大数据也会面临的挑战之一。

我举个具体的例子:

以前,美国监管部门明确规定,在使用算法的时候有些变量是绝对不可以碰的红线,比如说:

第一,性别,虽然我们知道女性的信用比男性好,但是你不可以这么使用。

第二,种族不可以使用,虽然我们知道黑人、拉丁裔的信用不如亚裔和白人,但是你不可以这么说。

所以,很多这样的红线取决于最后我们在算法当中,很多最有用的变量是不可以使用的。这很简单啊,就跟你在美国开车的时候,如果大大的写no you turn,一般这个地方你肯定可以调头,因为只有你调得非常舒服它才会禁止你调,如果前面就是一堵墙,它才不会这么写呢。所以,同样的情况也会出现在金融的监管当中。

有了大数据以后为什么就变了?因为我在做模型的时候,我设计了两个变量,潜心设计的,非常有用。

变量1:是你在家庭当中,到底订了什么样的杂志,后来被CFPB发现了,CFPB说你这个变量不能用,因为这个变量基本体现了种族的关系,我当时很困惑,货币发现确实如此,美国的黑人特别喜欢到某一家百货公司买东西,里面全是皮草、粗粗的金链子那样的,这样的我们亚裔肯定是不会买的,所以你去那看到的全是这样的东西。所以,如果订这个百货公司杂志的,多一半情况下都是黑人。你看,你没有用黑人这个变量,但是你间接最后还是找到了黑人这个关键变量,所以无情地这个变量被砍杀掉了。

变量2:我经常问,你早餐吃什么啊?我发现有人回答特别喜欢吃稀饭,你别想了,他一定是亚裔,白人才不会吃稀饭呢,黑人、拉丁人也不会。

所以,大数据在一定程度上,通过了算法的层层叠加,最后把本来不可以碰的监管红线给绕过去了。这个我始终坚信,中国和美国很多地方是不一样的,比如体育、文化、政治体制,但是在金融方面,我绝对相信美国的昨天就是中国的今天,而美国的今天就是中国的明天。所以,美国的很多监管对于中国来说是具有决定性意义的。

我们再看深度学习和机器学习的时候,我觉得这张图大家不妨有机会看一下,还是比较有用的。

1、在深度学习当中,我们对于一个行业的要求是没有那样明显了,这就是机器学习和深度学习最大的区别。机器学习一定程度上无论是SBM、decision tree还是等等其它的算法,最终其实都是一个特征变量工程,我们需要这个行业当中的人清楚地知道,这个变量到底在这个行业当中有没有用,这就是为什么银行喜欢使用逻辑回顾的原因,最终只有10几个变量,看起来非常清楚,但是深度学习一定程度上可以解决这个问题。

2、对于监督样本到底有多少?在深度学习当中,我们最好的情况就是使用在小微企业当中,小微企业离散的行业特性,无论是机械制造还是塑料加工,还是服装,还是餐饮业,因为它的行业属性不同,你把它的样本拿在一起是没法建模的。但是,当使用了深度学习以后,一定程度上因为底层的变量提取变成了无监督学习,所以我们对于变量总体的需求就减少了。

同样的情况,下面无论是我们对于变量处理所需要花的时间、自动选取,等等都能做的很好。我想,如果你在银行当中工作,或者自己做模型,你就不会发现一个逻辑回归要用5000个变量,因为这些变量一定会过度拟合的。但是在深度学习当中,过度拟合这个问题因为有了Pulling(英)这一步,而极大程度上得到了缓解。

因为时间所限,这些我就不再详细的介绍,大家可以看到关键的是,如果使用传统机器学习的话,很可能IP地址、APP的使用习惯等等,在一定程度上如果没有有经验的人来提取的话,很可能就被算法扔掉了。但是在深度学习当中,它的底层向上层层经过神经网络的层层叠加,在一定程度上把这些变量都可以发现和找出来。

这些冰鉴的优势,就不再多说了。

总体上来讲,我认为想要做征信这个行业,我们始终是坚持做到独立、第三方、高科技、轻运营的平台,换而言之真正要做征信的,既不能裁判员、运动员都做,而且同时还要保持相当的独立性。所以,我们不放贷也不助贷,我们安心地在后台通过技术来为所有的金融机构提供一个把小微企业和个人征信推向最好解决方案的公司。

这里就是我最后的总结了,非常感谢大家!

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。