清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

 

长期以来,P2P网络借贷行业都游离在监管之外,行业运行的数据更是缺乏权威的统计。基于这个空白,民间诞生了各式各样第三方数据统计机构,希望从数据中看出平台运营的问题,并为行业研究做数据铺垫。其中关注度较高的数据平台有网贷之家、第一网贷、网贷天眼、零壹数据等。网贷行业的数据统计一般有三方面:资金来源端、资金运用端、平台本身,目前这些第三方机构的统计主要在资金来源段,几乎无法触及最关键的资金运用端,当然这也和平台资金运用不透明有关。本文主要给大家介绍第三方平台采集数据的方式,及数据维度,供参考。数据如何采集

一般来说网贷数据平台有两种方法采集数据:1、爬虫;2、网贷与数据平台直接对接接口获取数据网贷平台都是通过网站来实现借款与投资。而任何一个网站都是代码而已。

举个例子,打开任意一个网站,然后对着网站页面空的地方点击鼠标右键。再点击查看页面源代码,就能够看到网站的源代码。而这些代码是什么意思大家可以不用在意。我们可以简单理解爬虫就是截取源代码中的信息的技术。此技术非常成熟,互联网行业中有非常多的应用。比如,我们打开宜人贷的官网,然后查看其源代码。以下是随意复制的一条源代码:

<meta name="Keywords" content="宜人贷官网,宜信旗下个人信用贷款与投资理财的P2P网贷平台,宜信旗下个人信用贷款与投资理财的互联网金融公司" />

以上的一条源代码中有很多文字,而恰好是这些文字让网贷数据平台抓数据成为了可能。一般来说,借款利率,借款总额,投资人数等等都会在源代码中以文字形式出现。如果是以文字形式出现,爬虫就可以截取,然后存入一个excel表格。

试想,一个网贷平台页面中有无数标的信息,如果平台的数据每天都被截取一次,就能知道这个平台在网站上的交易数据,包括交易量等等。这就是网贷数据平台用爬虫获取数据的原理。网贷行业在兴起后,出现了很多技术外包公司,这就导致了很多的平台其实用的都是一套源代码,用非常简单的爬虫软件就能轻易爬取非常多网贷平台的信息。由于爬虫技术会对网站造成访问负担。很多排名较高的网贷平台都自己开发网站,还通过技术手段隐藏了上述的文字字段,让爬虫抓取不到数据。

一些数据平台在行业中累计了大量的用户,也能倒逼网贷平台对其打开数据接口。对网贷平台来说,开放自己的数据其实是增加透明度的非常好的方式。所以,还是有很多平台对第三方数据平台专门开发数据接口。

数据统计的维度

一般来说数据平台会统计网贷平台的维度有:1、总交易额;2、借款人数;3、投资人数;4、人均借款金额;5、人均投资金额;6、笔均借款额;7、笔均投资额;8、综合利率;9、平均借款期限;10、平均投资期限;11、人均借款次数;12、人均投资次数;13、平均满标时间;14、贷款余额;15、借款分散度;16、投资分散度。

这些统计数据很多很常规。对一般的投资者来说,很多人只看这个平台的交易量。觉得平台交易量大就没有什么问题。而忽略了一些最基本的风险指标,比如人均借款金额和借款分散度,但是这些指标的抓取难度较大,一些平台的数据也不全面,而且投资者也不会多去参考这些数据,导致了行业里的几次黑天鹅事件。从理论上来说,如果以上数据足够,交给专业人士分析,可以大致知道此平台是否靠谱。

数据全面程度

目前行业中较大的数据平台为上述四家。这些数据一般是给投资者参考,而且平台做这些事情不会给平台带来直接的现金流,所以这些平台的很多数据是抓取了,但是不显示出来。但是,如果一些机构愿意花钱给这些数据平台定制报告,这时数据平台的真实价值才能显现出来。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。