清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

摘要:本文以Prosper网络借贷平台上2007年12月至2012年2月的交易数据为样本,从文本分析的视角对比研究利率形成机制变动前后借款陈述对借款成功率和实际借款利率的影响。实证表明:在利率竞拍模式下信用等级越低的借款人越倾向于提供借款陈述,借款陈述的迷雾指数和文本长度都与借款成功率呈现“倒U型”关系,并与实际借款利率存在线性正相关关系;其次,在固定利率模式下,借款利率与借款陈述长度存在显著的“U型”关系,与迷雾指数只表现出线性正相关关系;最后,在两种利率模式下借款人提供借款陈述都能降低借款成本,但是不一定能增加借款成功率,且信用等级较低的借款人提供借款陈述对借贷行为的影响更大。

关键词:借款陈述;P2P借贷;文本分析

一、引言

网络借贷(Peer-to-Peer Lending, P2P)是指不以银行等金融机构为媒介、借贷双方直接通过互联网进行交易的无担保借贷,其本质是向中低收入群体或小企业等被传统信贷排斥的个体提供金融服务。这种新型的借贷模式虽然有利于解决中小规模经济活动的资金短缺问题,但在结构、制度和网络信息的完整度等方面仍存在不足。Lin et al.(2013)研究指出贷款人主要依据借款人在平台上披露的信息内容及数量来做投资决策,所以贷款人倾向于更多地掌握借款人的有效信息。但Steelmann and Aaron(2006)实证发现,与线下借贷市场相比,P2P网络借贷市场中的借贷双方信息不对称现象更加突出。因为在线上市场中,交易大多是在假名或匿名状态下进行的,借款人可能会隐瞒自身的不利信息以增加其获得贷款的可能性并降低借款成本,而贷款人的投资行为是透明的,且网络借贷不需要抵押担保,所以贷款人承担了主要风险。由此观之,深入研究P2P网络借贷平台上借款信息对借款利率和借款成功率的影响,对于降低信息不对称程度、控制网络借贷风险以及完善借贷平台的建设具有重大的现实意义。

国内外学者对借款信息与借款利率和借款成功率的关系进行了大量的理论和实证研究,研究所关注的信息大致可分为财务信息(如Klafft, 2008;王会娟和廖理,2014)、社会资本信息(如Guiso et al., 2004;Freeman and Jin, 2008)和人口特征信息(如Beller et al., 1994;李悦雷等,2013;廖理等,2015)这三大类,但鲜有学者从信息的文本挖掘角度去研究借款信息对借款利率和借款成功率的影响。

心理学研究表明,自然语言中运用的词汇能在一定程度上反映出作者的自我认知和社会地位(Pennebaker et al.,2003),由此推断,借款人对借款订单的详细描述或许能为贷款人提供借款人的额外信息。结合互联网借贷的实际情况可知,P2P借贷交易中存在较强的信息不对称,因而贷款人会关注借款人提供的借款陈述等文本信息,以降低其投资风险。但不同的读者对同一个文本内容的理解和认知是不同的,所以对文本信息进行精确地测量是非常有必要的。

虽然“文本的组织模式和语言特征可携带与作者相关的有效信息”(Ghose et al., 2012;Hancock et al., 2007;等)这一结论在新闻传播、股票发行(IPO)等领域都已得到证明,但是学者们尚未深入探究文本信息在经济交易中的作用(Herzenstein et al., 2011)。而P2P网络借贷作为一种新兴且发展迅速的资金交换手段,现有文献中涉及与借款陈述相关的文本特征研究并不多,且大部分都只是将借款人对借款申请的描述作为控制变量,并没有对其进行系统分析(Larrimore et al., 2011),例如Pope and Sydnor(2011)从借款文本中提炼出借款用途,并将其作为控制变量,以探究由借款人提供的图片所传达出的性别、种族等因素对网络借贷的影响;Duarte et al.(2012)将陈述文本的总单词数、单词的平均音节数等加入控制变量中,以研究外貌对借款的影响。此外,在仅有的少量较为系统地探究借款陈述如何影响网络借贷行为的研究中,几乎所有文献都将其视角锁定在文本内容的挖掘上(如Michels, 2012;李焰等,2014)。

值得注意的是,虽然P2P网络借贷平台允许借款人提供借款陈述,但是这些文本不经过平台验证,不具备法律约束力,这意味着借款人不必为自己的“言行不一”承担责任,而不符合事实的借款描述可能会引导贷款人做出错误的投资决策,所以仅从内容层面上去研究借款陈述是不充分的。相对于内容而言,文本的语言特征更加难以掩饰或歪曲,作为文本语言特征的突出标志,可读性是衡量作者能力、受教育程度甚至其财务状况的一个简单有效的指标(Rennekamp,2012)。因此文本可读性颇具研究价值,但在P2P领域的此类研究却近乎空白。

迷雾指数是目前最流行的测量文本可读性的工具,其在金融等多个领域的有效性都已得到证明(如Li, 2008),同时Loughran and McDonald(2014)研究发现文本长度也能够对金融文件的可读性进行有效测量。因此,本文对P2P借贷中的借款陈述进行文本可读性分析,不仅研究借款陈述的有无对借款成功率和借款成本的影响,而且用借款陈述的迷雾指数和文本长度两个指标来从可读性层面探究借款陈述在互联网借贷中的作用,以期更加全面地考察借款人信息中的借款陈述对P2P网络借贷行为的影响。

此外,伴随着互联网金融的发展和全球经济形势的改变,P2P网络借贷的利率形成机制发生了明显变化。以Prosper平台为例,该平台最初采用竞拍模式确定借款成本,但拍卖系统的操作难度大,加上金融危机等事件的冲击,Prosper平台的贷款违约率和坏账率都大幅上升,所以Prosper平台经过多次调整并于2010年12月19日正式将利率形成机制改为固定利率制①。由于不同利率形成机制下的利率所包含的信息大有不同——竞拍模式下的利率更多地反映出贷款人对借款标的的市场评价,而固定利率模式下的利率则是平台对借款人违约风险的科学量化,因此本文将全样本按照利率形成机制变动时间点划分为两组,对比分析不同利率形成机制下借款成本的影响因素。

本文旨在在不同利率模式下对比探究以下五个问题:第一,在P2P借贷中哪些借款人更倾向于提供借款陈述;第二,借款人提供借款陈述能否提高其借款成功率并降低其借款利率;第三,如果提供借款陈述可以影响网络借贷,那么借款陈述的迷雾指数能否影响借款成功率和借款利率;第四,如果提供借款陈述能影响网络借贷,那么借款陈述长度是否会影响借款成功率和借款利率;第五,在上述问题成立的前提下,提供借款陈述对哪部分借款人的作用更大。

本文的研究贡献主要体现在以下几个方面:首先,本文将在新闻学、IPO等领域广泛使用的文本可读性分析(尤其是迷雾指数)引入到P2P网络借贷影响因素的研究中,并加入非线性分析,对比探究不同利率形成机制下网络借贷行为影响因素的差异性,丰富了研究视角,弥补了文本可读性分析在网络借贷领域的研究空缺;其次,基于Lounghran and McDonald(2014)的研究,本文创新性地将“迷雾指数和文本长度的比较”延伸到P2P网络借贷的研究中,并得到较有价值的结论;最后,相对于小样本并手工搜集信息的文本研究(如Herzenstein et al., 2011;李焰等,2014),本文借助计算机编程对指标齐全的大样本进行系统的文本分析,避免了实证结果的偶然性。

二、假设提出

在利率竞拍模式下,贷款人会通过各种途径收集借款人的信息,并对借款人的还款能力进行判断进而做出投资决策;在固定利率模式下,平台会先审核借款人的借款申请,并对通过审核的借款申请进行定价,所以为了增加贷款人和平台对其的信任度,借款人会选择在提供平台要求填写的信息之外,增加额外的信息,例如借款人提供借款陈述来具体阐述自己的经济情况、借款目的等,以展示其具有良好的还款能力。Klafft(2008)研究发现,借款人的信用评级对网络借贷的影响最大。据此提出第一个假设:

假设1:信用等级越低的借款人越倾向于提供借款陈述,且该结论在利率竞拍模式和固定利率模式下均成立。

根据Pennebaker et al.(2003)的研究可知,借款陈述是借款人对借款原因、财务状况等信息的自我描述,能够反映出借款人对自身的评价及其社会地位,也能传达出借款人对此次借款的重视度、迫切度等信息。可见,借款人提供借款陈述可为贷款人的投资决策和平台的审核与定价决策提供额外信息,有助于其申请贷款。据此提出第二个假设:

假设2:在两种利率模式中,提供借款陈述均可提高借款成功率并降低借款利率。

迷雾指数是句子的平均长度和复杂单词所占比例的线性组合,用于度量借款陈述的阅读难度,迷雾指数的值越小,说明借款陈述的可读性越强。可读性过强的文本虽然生动易懂,但是在语言表达的精确性、理论的严密性等方面相对不足(阎达五和孙蔓莉,2002),所以迷雾指数过小的借款陈述不能准确地表达借款人的意图,这不利于借款人申请贷款;而当借款陈述的迷雾指数过大时,贷款人和平台很可能会因读不懂而放弃认真阅读文本,这会限制甚至阻碍贷款人和平台从中获得额外信息。据此提出第三个假设:

假设3:借款陈述的迷雾指数与借款成功率存在倒U型关系,而与借款利率存在U型关系,且该结论不受利率形成机制变动的影响。

借款陈述的长度能反映出借款人的还款能力及其对贷款的重视度。若借款陈述过短,贷款人和平台也许会认为借款人对自己的还款能力不够自信或者是其对此次借款不够重视,从而不愿为其提供资金或会要求较高的借款利率以补偿潜在的违约损失;若借款陈述过长,由于借款陈述具有较大的主观性,客观信息处于弱势的借款人很可能用更多的正向文字去掩饰不足,以增加其获得贷款的概率(Tan et al., 2007),因此过长的借款陈述更容易引起贷款人和平台对文本真实性的质疑。据此提出第四个假设:

假设4:借款陈述的长度与借款成功率存在倒U型关系,而与借款利率存在U型关系,且该结论不受利率形成机制变动的影响。

信用等级是对借款人信用状况的客观反映,也是贷款人和平台评估借款人还款能力的重要指标(Lin et al., 2013;Klafft, 2008)。当借款人的信用等级较低时,借款人可以提供借款陈述以增加贷款人和平台对其的青睐度,从而能更明显地提高借款成功率并降低交易成本;而对于信用等级较高的借款人,其借款成功的可能性本来就大,再额外提供借款陈述的作用相对较小。据此提出第五个假设:

假设5:信用等级较低的借款人提供借款陈述更能提高借款成功率并降低借款成本,且该结论在利率竞拍模式和固定利率模式下均成立。

三、研究设计

(一)样本来源及其处理

本文选取美国Prosper网络借贷交易平台上2007年12月3日至2012年2月1日期间的借贷数据为样本,所有观测都是竞标处于完成状态的借贷信息。首先采用随机抽样选取80000个观测作为初始样本,然后对初始样本做预处理:删除信息不全(如缺失信用等级、学历等)的20257个观测,去除带有噪音数据(如借款陈述为“NA”或“.”)的16776个观测,最终整理得到42967个有效交易数据。由于Prosper平台在2010年12月19日将其利率形成机制从原来的竞拍模式变为固定利率模式,因此本文将预处理得到的42967个观测按照利率机制变动时间点划分为两组:一组是利率竞价机制下的样本(简称“分样本1”),共有17355个有效交易数据,其中13405个观测提供借款陈述,占比77%,3950个观测未提供借款陈述,占比23%;另一组是固定利率机制下的样本(简称“分样本2”),共有25612个有效交易数据,其中14972个观测提供借款陈述,占比58%,10640个观测未提供借款陈述,占比42%。

(二)研究模型和变量定义

为了检验前四个假设,本文基于Klafft(2008),Michels(2012)等研究分别构建模型(1) 和(2),并结合研究目的,使用模型(3) 研究借款陈述对网络借贷的非线性影响。

模型(1) 中的被解释变量Description 为借款人是否提供借款陈述,提供时取1,否则取0。模型(2) 和(3) 中的被解释变量Y为借款成功率(Success)和实际借款利率(Interest),分别是指借款人实际借到的金额与借款总金额的比值、借款利率与无风险利率的差值。模型(1)的核心解释变量Grade为借款人的信用等级,共有7个等级,从高到低依次赋值为0 至6。模型(2) 的核心解释变量为Description。模型(3) 的核心解释变量X为迷雾指数(FogIndex) 和借款陈述长度(Des_Length) ,迷雾指数的计算公式为:FogIndex= 0.4 * (ASL + 100 * ACW) ,其中ASL 是句子的平均长度,由总单词个数除以句子个数得到,ACW是复杂单词的比例,由复杂单词(即音节大于2 的单词)个数除以总单词个数得到:借款陈述长度是指陈述文本中的单词个数。同时,综合已有文献对P2P 网络借贷行为影响因素的研究成果,本文选取借款金额、借款期限、月收入等变量作为控制变量,变量定义如表1 所示。

为了验证假设5,本文在模型(2) 中加入变量Description * Grade,通过考察该交叉项来检验不同信用等级的借款人提供借款陈述对借款成功率和借款利率影响的差异性。

(三)描述性统计分析

表2汇总了所有变量的描述性统计结果。对于模型(1) 和(2) 中的变量而言,分样本1中77%的借款人提供了借款陈述,91%的借款人成功获得贷款,平均实际借款利率约为11.5%,借款金额的均值约为10293美元,借款期限的均值为40.0339个月,而分样本2中只有58%的借款人提供了借款陈述,但其借款成功率高达98%,平均实际借款利率、平均借款金额和平均借款期限与分样本1相比都偏大,这说明在固定利率模式下借款人成功获得资金的可能性、资金量以及资金使用期限都会增加,但也会付出相对较高的借款成本。两组样本中借款人的信用等级和平台信用评价的均值都较小,说明两组样本中借款人的信用状况均处于中高地位。两组分样本中借款人的月收入均值都在5850美元左右,工作年限均在5年左右,表明在两组分样本中大多数借款人都是属于中低收入且参与工作时间较短的群体。

对于模型(3) 中的变量而言,在提供借款陈述的观测中,两组分样本的迷雾指数均值分别为11.7880 和11.7649,说明两组分样本中借款陈述的阅读难度相近:而借款陈述长度的均值分别为87.2211和65.4329个单词,可见在利率竞价机制下借款人提供的陈述长度更长。此外,在依据是否提供借款陈述进行筛选后,分样本间的变量差异有所改变,例如在提供借款陈述的观测中,借款成功率在分样本1和分样本2间的差距更大。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。