扫描分享
本文共字,预计阅读时间。
一般来说网贷数据平台有两种方法采集数据:1、爬虫;2、网贷与数据平台直接对接接口获取数据。网贷平台都是通过网站来实现借款与投资。而任何一个网站都是代码而已。
举个例子,打开任意一个网站,然后对着网站页面空的地方点击鼠标右键。再点击查看页面源代码,就能够看到网站的源代码。而这些代码是什么意思大家可以不用在意。我们可以简单理解爬虫就是截取源代码中的信息的技术。此技术非常成熟,互联网行业中有非常多的应用。比如,我们打开宜人贷的官网,然后查看其源代码。以下是随意复制的一条源代码:
<meta name="Keywords" content="宜人贷官网,宜信旗下个人信用贷款与投资理财的P2P网贷平台,宜信旗下个人信用贷款与投资理财的互联网金融公司" />
以上的一条源代码中有很多文字,而恰好是这些文字让网贷数据平台抓数据成为了可能。一般来说,借款利率,借款总额,投资人数等等都会在源代码中以文字形式出现。如果是以文字形式出现,爬虫就可以截取,然后存入一个excel表格。
试想,一个网贷平台页面中有无数标的信息,如果平台的数据每天都被截取一次,就能知道这个平台在网站上的交易数据,包括交易量等等。这就是网贷数据平台用爬虫获取数据的原理。网贷行业在兴起后,出现了很多技术外包公司,这就导致了很多的平台其实用的都是一套源代码,用非常简单的爬虫软件就能轻易爬取非常多网贷平台的信息。由于爬虫技术会对网站造成访问负担。很多排名较高的网贷平台都自己开发网站,还通过技术手段隐藏了上述的文字字段,让爬虫抓取不到数据。
一些数据平台在行业中累计了大量的用户,也能倒逼网贷平台对其打开数据接口。对网贷平台来说,开放自己的数据其实是增加透明度的非常好的方式。所以,还是有很多平台对第三方数据平台专门开发数据接口。
数据统计的维度
一般来说数据平台会统计网贷平台的维度有:1、总交易额;2、借款人数;3、投资人数;4、人均借款金额;5、人均投资金额;6、笔均借款额;7、笔均投资额;8、综合利率;9、平均借款期限;10、平均投资期限;11、人均借款次数;12、人均投资次数;13、平均满标时间;14、贷款余额;15、借款分散度;16、投资分散度。
这些统计数据很多很常规。对一般的投资者来说,很多人只看这个平台的交易量。觉得平台交易量大就没有什么问题。而忽略了一些最基本的风险指标,比如人均借款金额和借款分散度,但是这些指标的抓取难度较大,一些平台的数据也不全面,而且投资者也不会多去参考这些数据,导致了行业里的几次黑天鹅事件。从理论上来说,如果以上数据足够,交给专业人士分析,可以大致知道此平台是否靠谱。
数据全面程度
目前行业中较大的数据平台为上述四家。这些数据一般是给投资者参考,而且平台做这些事情不会给平台带来直接的现金流,所以这些平台的很多数据是抓取了,但是不显示出来。但是,如果一些机构愿意花钱给这些数据平台定制报告,这时数据平台的真实价值才能显现出来。
非常感谢您的报名,请您扫描下方二维码进入沙龙分享群。

非常感谢您的报名,请您点击下方链接保存课件。
点击下载金融科技大讲堂课件本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
本文版权归原作者所有,如有侵权,请联系删除。