清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

12月7日,在清华大学金融科技研究院主办的中国金融科技大会·金融深科技论坛上,恒昌公司CTO薛正华结合自身经验,分享了在普惠金融方面的应用和实践。在大数据方面,恒昌构建了一个4亿实体、60亿关系的超大规模的信贷知识图谱,识别欺诈模型,增强失联修复;在人工智能领域,运用人脸识别和声纹识别,以及即将上线的远程面审提高效率;在数据安全方面,除了常见的机制,还运用了密文数据保证安全。未来团队将在营销矩阵及反欺诈模型上更多地应用人工智能技术。

恒昌公司CTO薛正华

以下为演讲全文:

各位尊敬的来宾和各位尊敬的领导,上午好!我今天想和大家一起分享一下科技在做普惠金融方面的应用和实践。我叫薛正华,现在在恒昌担任首席技术官,过去在百度、用友集团和中国科学院工作过。

大家看到这幅图实际上是整个网贷行业发展的情况,大家看左边看着很兴奋,增长极其迅速,但是大家看右边,从2015年起,能够正常运营的网贷的平台数在减少。为什么会出现这样的情况呢?我们觉得有两方面的原因:

1、有一些人上来的时候就没打算好好经营。

2、可能大家忽视了网贷行业的挑战。

恒昌过去六年我们觉得有几个方面非常大的挑战,让我们看到了这不是件容易的事:

1、小微信贷的特点就是额小量大,而且是整个环节非常多。

比如说像一笔正常(普通)的业务,从用户提交各种资料,到反欺诈里面,我们通过各种欺诈模型对它进行判断。过了之后又会到信用系统,对他进行资产负债比计算,对他进行信用的评分,来进行授信。之后形成债权,再到债券分析系统进行撮合。撮合结束之后,又会流转到财务系统里面去,最后审核各种数据和信息对不对,最后放款,钱才能出去。

所以,大家看到信息流转是非常长的,特别是如果你的业务规模到了一定的程度,没有强大的系统,你没有一系列各个部门强大的团队,你想把这个事做好,实际上是非常困难的一件事情,这还仅仅是贷前、贷中。贷后又是一个很长的流程和很大的团队,所以它不是一件容易的事情。

2、刚才几位分析嘉宾也分享了,在这个领域里面,欺诈是很严重的,特别是高科技的欺诈。你有没有能力能够抵挡住高科技的欺诈?你的科技是不是比他更强?如果你没有这些能力,你想要做好也很难,很多公司也是倒到了这个上面。

最后,在整个网贷行业里面竞争是非常激烈的,整个获客成本也是很高的,你能不能控制住你的运营成本也是决定你生死的关键因素。

所以,我们看了这几个挑战之后,发现其实这个行业想做好是一个非常有挑战的事情。

这两年大家都在说大数据,恒昌通过过去六年的积累和发展,在数据方面也有了很大的积累。我们的数据主要来源于几个方向:自有的数据、业务上产生的数据,同时还有通过用户合法授权的数据,以及我们利用爬虫技术获取的公开的技术。比如说各级人民法院公布的“老赖”名单,我们会定期去爬取。包括在58、赶集、百度贴吧等等上面有很多中介,帮你贷款的代办公司,实际上这种代办公司往往都是黑产,他们在帮助别人包装,让你来成功地获取贷款等等。这些名单我们也会爬起来,进入到我们的灰名单库里面。所以,通过过去几年的积累,灰名单库的数量已经过了1000多万了,大家看到有多少人在从事这种事情。

我想和大家重点分享一下我们特色的技术,因为量比较大,我们现在构建了一个有4亿实体、60亿关系的超大规模的信贷知识图谱。

什么叫信贷知识图谱呢?它利用了图数据库的技术,大家知道传统的行式存储,后来大数据为了统计方便、快一点儿,用了列式存储,实际上是按列来存储,读列数很快,计算数快,一次性读到手,解决IO的问题。

我们认为在整个信贷行业里面,包括金融领域利民,我们认为图数据库的技术更能自然、直观地反映出这样的关系,更有利于我们做风险控制和贷后资产管理等等工作。所以,在我们的系统中,整个大的数据仓库是基于图数据库构建的。

我先举两个例子,它能干什么?这个例子是我们系统中的一个实例,过去我们把东北某省的一个过去两年的数据做出来的样本统计。

大家看到左边有一个叫王小丹的,到我们系统有借贷行为,我们会围绕着这个实体有很多属性。来了一个新的人,姓包的,他也来做贷款,他进来的时候也填了很多属性,当然还有很多我们通过他提交的资料分析出来的。我们把他身上的属性和图中几亿的实体进行关联,把他的上百位的属性跟图中上亿实体进行关联。

举个例子,比如说这两个人的工作单位是一致的,那图数据库会自动构建一个同事关系链,当然还有常用联系人关系链、校友关系链等等,有很多。

我们通过统计分析发现,当一个人的周围有两个人(和他有关系的人)出现了逾期,他发生逾期的概率是89.2%,如果有三个人就是91.8%,如果有四个人是96%,是非常高概率的一个事件。

我们认为大数据似乎印证了中国的一句古话:近朱者赤,近墨者黑。通过大数据的分析。

这是另外一个例子,我们发现不同的地方、不同的时间来我们这儿做借贷业务的人,通过图数据库发现他们用得竟然是同一个邮箱,把他们关联起来了,这肯定是不可能的事情。这实际上是一个非常典型的中介包装代办的案例。

过去恒昌做了上百万的借贷用户,每个人身上有上百个属性,换句话说,总共有上亿个数据项,你想要把这些关系找出来是非常难的。但是今天我们利用图数据库让机器自动把这个关系找出来了,我们可以直接地识别出欺诈模型。

自从今年3月份图数据库系统上线之后,累计到今天,我们已经让机器自动找出上百种欺诈模型。大家知道过去我们做风险风控是通过规则,把一条条反欺诈规则统计出来的,这是人设计出来的,今天我们用全新的技术、视角,让机器帮我们找到新的反欺诈模型,很多模型是我们想不到的。

我再给大家举个例子,比如说一个Mac地址,上面竟然对了好几百个电话号码,这种典型的欺诈,通过机器的方式把它就找出来了。

再举最后一个例子,图数据库还能干什么呢?我刚才进入这个行业的时候,很多人跟我们讲,失联是这个行业里面世界性的难题,如果能把这个事情解决了,对资产质量的提升是有非常大的作用。

今天我们利用图数据库,今天在恒昌的系统里面,一个实体的周围平均有200个移动的联系人,我们通过大数据的分析,对这200个人和他实体监控强有关系(亲和度)进行分析。比如说打电话通的频次是不是很高?同一个公司的关系是不是清晰?每条边的亲和度通过图计算的方式进行打分、评分,可以找出跟他关系最密切的人,进行贷后失联的修复。

通过这种技术能力,我们在上线第一个月的时候就超过了业界的第一名,比它高了1个百分点,今天我看了一下数据,10月30日(月末)的数据,已经足足高出行业老大失联修复的能力超过了10个百分点。我相信随着未来数据量不断的增大,关系链不断地增强,我们可以彻底把失联修复给解决掉,我们希望用一年半的时间,累计到8亿用户的时候,把整个失联情况给坚决处理掉。

这个是我们把大数据用在我们内部的管理,因为我们团队比较大,有好几万人,过去的时候对员工2万名信贷员的分析,下个月的中旬才能得到,今天我们利用流失计算技术,可以在五分钟之内,把整个员工的各种指标分析一遍,对于我们精细化的管理起着非常大、关键的作用。

刚才讲得都是大数据方面的工作,我们在去年也在人工智能领域做了很多应用。我们利用人脸识别技术来保障借款人和身份证的借款人是同一个人,同时我们也利用声纹识别技术来打击中介(我就不说了,主要是用来打击黑色中介的)。声纹识别和语音识别是两回事,声纹识别是声音是和人的指纹是一样的,都是人的唯一标识;语音识别是把语音自动翻译成文本,或者再把文本转换成语音,这是两回事。

包括我们马上就要上线的(在上上周五已经完成研发正在测试的)远程面审,通过对一些不确定的用户,放弃了觉得可惜,因为毕竟获取用户是有成本的,你把他拒掉了,就可惜了,但是通过了,又觉得可能会有风险。

我们研发了远程面审,可以拿着我们的工具,直接在任何时间、任何地点对用户进行远程的面审,以此来提高效率,同时彻底解决掉内外勾结的一些问题。

最后在数据安全方面,除了常见的机制,在去年10月份上线了数据的全价目系统。我刚才给大家讲的图数据库,里面的数据全是密文数据,我们所有的欺诈模型都是密文和密文的比对形成了欺诈模型,人是看不见的,只有让机器能够看到数据,来保障安全性,因为数据量太大了。

刚才讲得都是我们过去几年做得一些工作,最近我们也在做一些新的工作。整个系统随着业务量快速的增长,现在已经累计支持了千亿资金的交易。我们在并发性、高可用、可扩展等等需要进一步的完善,把系统更稳定、更高效。

另外,我们也在全面地把人工智能技术应用在我们的几个方面:

1、利用人工智能技术做超大规模的流量、营销矩阵,为什么做这件事?是因为现在获客成本非常高,我们希望通过对大流量的渠道:微信、百度、头条、爱奇艺、优酷这些用户360度的画像和分析,来提高转化率,降低我们的获客成本。

2、最核心的还是风控的反欺诈,我们希望再用一年半的时间构建出8亿实体(现在已经有3.4亿的实体的),形成上百亿之间实体和实体之间的关系。

我在这儿插一句,微信大家知道它很厉害、很值钱,但是我觉得微信上面有9亿的活跃用户,但是我觉得微信更大的价值是每个人、每个用户上千个关系,换句话说,可能有9000亿到万亿的人和人之间的关系,我认为这是最大的价值。

我们想未来在知识图谱这块儿,把规模做得更大,数据每天都在增长,越增长能力越强,越来越会形成你跟同行之间的壁垒。

同时我们也会利用深度学习的技术,来做全新的信任模型和反欺诈的模型,释放连接的力量。

最后,我们目前也正在做得,就是把语音识别和自然语言处理用在贷后资产管理。大家知道在小额信贷这个领域里面,贷后资产管理的重要性丝毫不亚于前端的风控和反欺诈,如果你管得好,你的钱少,比如说恒昌是5万多,你要是管得好,能把钱还回来,如果管得不好、管得松散,没有进行智能化、差异化、个性化的管理,你的钱是要不回来的。

所以,它的重要性是非常非常重要的(刚才蒋总也讲了)。目前我们在12月15日会上线我们的量化评分系统,除了对在反欺诈的时候要做量化评分,对逾期用户同样也要做量化评分,你会知道什么样的客户应该怎么样催,不同的资产管理、贷后资产和催收的方案形成催收,这些东西要通过AI的技术,不折不扣要用到很多AI的技术。

最后,光靠机器可不可以?可以,但是如果你能够把人和机器结合起来,效率是更高的。比如说我们的量化评分系统,我们现在在催收系统里面,会把机器量化评分给出来,催收人员会通过他的经验或者是他的催收量化评分也给出来,两边相互校正,人和机器相互来,这样转上几轮之后,准确度会大幅度提升。所以,人和机器加起来会更有力量,我也认为未来的人工智能社会一定是一个人机和谐发展、共赢的社会。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。