清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

数字化时代背景下,大数据、人工智能、云计算日渐兴起,应用大数据进行客户画像、行业分析以及风险防控已成为当下时代发展的主流,也是建设信息化、科技化社会的必然要求。在金融领域,应用大数据+人工智能技术构建客户画像、预测客户行为,并据此防控风险、优化业务模式,已成为银行等金融机构顺应时代发展、增加竞争优势的必经之路。

2018年3月16日,银监会发布《银行业金融机构数据治理指引(征求意见稿)》,在明确提出“数据已经成为银行的重要资产和核心竞争力,高质量数据是提升银行经营管理效率、提升监管效能的重要基础”的同时,也提出了“银行业金融机构数据质量存在较多问题,主要表现为数据准确性和完整性欠缺,时效性和适应性不足”。《指引》强调,党中央、国务院高度重视数据的基础性战略意义,要求深化数据在各行业的应用。银行业在我国经济中扮演重要角色,开展数据治理,充分发挥数据价值,既是积极主动对接国家政策的需要,也是银行业全面向高质量发展转变的需要,将有助于更好地发挥银行业在经济中的作用。

一、为何要引入外部数据?

1. 自身获取数据的局限性

长期以来,各企业、机构在自身经营发展过程中,不断积累内部业务数据,尤以银行等金融机构为甚,内部积累了海量的业务数据,逐渐搭建起企业级数据库,并构建融入了客户识别、风险预警和预控等智能分析事件库和规则库的风控体系。但这些银行自身获取的数据却存在诸多问题,如数据来源单一片面,无法全面分析预测风险;业务数据碎片化、数据呈现非结构化,无法深度挖掘数据价值等。

2. 引入外部数据的必要性

鉴于内部数据所存在的诸多问题,引入外部数据对相关业界实现如下诉求尤为必要:

全面识别客户风险的诉求

外部大数据为识别客户风险,尤其是信用风险提供了全新的思路,比如使用客户的行为数据、舆情数据,可以更加及时、准确地发现客户的潜在风险,比起传统的下户调查、分析财务数据的方法更加有效。银行引入外部海量数据,以数据为驱动,通过数据的挖掘找到客户特征,分析潜在风险,发掘价值。利用大数据的效率效能、跨渠道整合,来支持实时快捷的智能化风控。

成本控制的诉求

银行等金融机构、相关行业组织要实现自主采集、分析、挖掘外部数据,需要大量的人工、技术投入,因此向优质数据供应商直接采购外部数据成为主流选择。数据供应商所提供的数据来源相对广泛,且数据更新速度快,并借助自身技术进行数据的结构化分析,提供更加可用的外部数据。

二、引入什么样的外部数据?

1. 贴合应用场景及业务需求的数据

基于信用评估及决策辅助、负面信息查询及风险管控、商业合作及商业背景掌控等数据应用场景及业务需求,外部数据以客户群体特征为出发点,可以分成如下两大类型——个人客户消费生态链和企业客户生产经营价值链上的情景化数据。具体而言,包括如下数据类型:

个人客户消费生态链相关数据

用户行为数据;收支等级数据;法院被执行等司法数据。

企业客户生产经营价值链数据

司法数据;工商数据;涉税数据;环保数据;质检数据;招聘数据;舆情数据等。

通过引入上述各类行为痕迹数据、交易数据、司法数据、工商数据、舆情数据等等,为实现信用评估及决策辅助、负面信息查询及风险管控、商业合作及商业背景掌控,提供充足的样本库,利用大数据分析方法使提前预测客户风险事件成为可能。

2. 优质的数据

在满足贴合应用场景及业务需求这一最基本的条件下,引入的外部数据质量优劣是引入方最为关注的,而优质数据应具备如下特征:

可靠——采集自权威数据源,加工处理后与数据源保持一致且可追溯验证的数据

大数据的可靠性来自于数据源的权威性、合法性,是由权威机构公开发布,合法获取,而非捏造篡改的数据。可靠的数据值得信赖,能够最大程度规避数据引用的风险。

全面——实现对已有数据源的全量覆盖,数据采集过程中无遗漏的数据

大数据的价值来源于对全量数据的分析和挖掘,数据采集源覆盖全面与否、遗漏数据量的比率大小,关系到数据的完备性。采集源越全、遗漏率越低,数据的完备性就越高,所构成的数据样本库也越大,对客户风险识别及刻画越深刻和有效,数据应用范围越广。

可用——经结构化解析后字段解析正确,解析要素全而精细,无空值,无重复的数据

数据解析过程中,目标维度结构化字段解析正确,解析后的要素包含该类数据涉及的全部属性和内容,字段内容无缺失数据,无重复数据,是数据可用性的考量指标。只有引入可用性强的数据,基于其做出的决策或结论才更符合实际业务需求,并最大程度保证决策的正确性。

及时——从数据源发布到可应用的周期短、更新快的数据

数据处于实时裂变的状态,需要及时更新数据。信源网站发布后,能够实时采集,并进行快速分析、挖掘,如此产生的数据才能为客户提供最新最全的数据信息。更新越快,加工周期越短的数据,其有效性及参考性就越高。

稳定——不间断、持续性处理且响应速度快的数据

稳定数据的提供,往往需要强大的技术支撑,如服务器稳定运营、系统快速响应、并发处理能力强大等。数据的稳定性是外部数据采购过程中不可忽视的要素,数据准确率再高,如果无法持续、快速处理,一旦故障出现时长过长,就会导致业务瘫痪,造成巨大损失。

3. 专业的数据

专业的数据往往来源于专业数据服务商,他们不仅能够根据客户的应用场景及需求提供相应的数据,并且能够通过技术手段,保证数据的可靠性、全面性、可用性、及时性和稳定性。此外还可以通过专业化调研,基于现有数据和客户的需求,梳理新的规则库并进行建模,提供更加专业化的直接可用的数据。

三、评价外部数据质量及服务优劣的标准是什么?

前述提到,优质数据及服务的特征是可靠、全面、可用、及时、稳定。针对这些特征,基于大量理论调研及实践经验,总结出如下评价标准:

1. 公信度——目标数据源可信程度

可靠的数据,首先应具有公信度。通常,国家公权力机关(政府、行政机关、法院、检察院等)公布的数据是最具权威性的,公信度最高;此外,具备上述机关背书的科研机构、媒体及其他正规机构公布的数据,也具有一定的权威性,公信度较高,因此,直接或间接来源于上述机构的数据是具备公信度的。

2. 一致性——产品数据与原数据相一致

可靠的数据,还应保持采集数据与采集原文内容上的一致性,不能随意篡改原文,对于原数据确有可识别的明显错误的,可进行数据修正,修正后需备注修正缘由和修正依据。

3. 可追溯——产品数据可直接或间接追溯原数据

可靠的数据,要求数据来源可追溯,能够证明数据并非捏造的。因此,数据应具备相关的元数据和数据源链接url,并包含可查得来源的描述信息(非url),如:某网站—>某栏目,且对数据原文需进行存储,存储期限需大于6个月。

4. 覆盖率——目标领域采集数据源覆盖的比例

全面的数据,要求数据目标领域(如司法、工商等)采集源覆盖范围广、层级深。范围广,既指地域范围覆盖广,也指目标领域子维度或子栏目覆盖广(如司法领域又包含裁判文书、执行公告、失信公告等);层级深,指同一地域行政区划从上至下覆盖程度深。对司法、工商等常备型数据的数据源可分为五个级别:国家级(最高法、最高检、最高行政机关(如工商总局、税务总局)等)、大省大市级(GDP排名前十大省份/直辖市/副省级市的法院、检察院、行政机关等)、全省大市级(大省大市以外的全部省级和省会城市级的法院、检察院、行政机关等)、全部地市级(大市以外的全部地级市的法院、检察院、行政机关等)、全部区县级(全部县、县级市、区的法院、检察院、行政机关等)。行政区划层级越低,则相对应的采集源(网站)就越多(以司法为例:国家级——1(最高院)、省级——31(高院)、地市级——400多(中院)、区县级——3000多(基层法院)),其采集难度也越大,同时,越高层级发布的数据重要性越高,经济发展程度越高的地区产生的数据相对越多,经济发展较为落后的地区产生的数据相对少,据此,结合上述情形,优质数据应达到国家级、大省大市级、全省大市级覆盖率100%,即上述级别目标采集源全覆盖;全部地市级覆盖率95%,全部区县级覆盖率80%,如西藏、青海等省份经济较落后,低级行政区划产生的数据较少,即允许在此级别有少量数据源不在采集范围内。

5. 遗漏率——目标领域单位数据源数据采集量是否充足,遗漏数据量的比率

全面的数据,在覆盖范围广、层级深的基础上,还需考量单位采集源(如司法领域中的执行公告)的数据采集完备程度,有无遗漏及遗漏比例。优质数据原则上要求采集数据总量需大于或等于数据源总数(以司法查冻扣为例,当对同一被查当事人既采取查封房产又采取冻结存款措施时,可拆分为两条数据,因此存在大于数据源总数的情形),即采集无遗漏,采集率达到100%,但囿于部分领域可能存在现有技术无法采集全部数据的情形,则同类数据总量可对比同行业其他公司,要求不少于同行业公司同类数据总量。

6. 精细度——目标维度数据内容解析的精准细化程度

可用的数据,首先应对原始数据进行高精度结构化解析,实现数据内容从结构化至颗粒化,提高对原始数据读取效率,满足对数据分析、建模的需求,从而增加数据可利用率。因此,优质数据的基础要求是解析后的结构化字段包含该维度数据的关键内容(以裁判文书为例,要包含当事人名称、当事人诉讼地位、判决结果胜负、判决金额等);其次,要求对其他重要辅助信息进行解析,即数据内容颗粒化(以裁判文书为例,在关键字段外还需解析出法院、案由、案号、案件性质、结案时间、地域等等)。当数据具备关键信息的结构化展示及其他重要辅助信息的颗粒化展示后,即可称为高精细度的优质数据。

7. 准确率——目标维度数据字段解析正确的比例

可用的数据,必须是准确的。优质数据要求解析结果1)无乱码(如无法辨识的文字、符号,字段不应出现的符号等);2)数值符合合理逻辑,无异常的大值或者小值;3)数据内容正确填充到相应字段;4)无多条数据叠加合并错误;5)同一类型数据的格式统一;6)枚举类型不出现枚举之外的数值或字符;7)字段长度在定义范围内或其他条件允许范围内;8)同一条数据不同字段内容逻辑相呼应(如司法立案时间应早于结案时间)。

8. 重复率——目标维度内重复数据量比例

可用的数据,应避免冗余重复。优质数据要求:1)定义的具备唯一性字段的内容唯一,重复率应为0。以数据ID字段为例,一条数据对应一个ID,一个ID也仅对应一条数据,则输入该ID仅应匹配出该条数据;2)定义的联合主键字段的内容唯一,重复率应为0。如:当事人+法院+案号+立案时间+发布时间可匹配出一个案件信息,且为唯一案件,因此,上述字段为该案件的联合主键字段,则输入上述字段,匹配出的案件数据应为唯一;3)主体内容不完全一样,重复率应小于5%。如:同一案件,由不同法院发布相关内容,则采集自不同数据源(法院)的同一案件数据允许出现重复,但重复率应小于5%。

9. 空值率——目标维度目标字段内容缺失数据量比例

可用的数据,内容不能出现大量空值,否则实为无效数据。优质数据要求:1)必填字段(缺失后导致数据失效的字段)的空值率必需为0%;2)数据源字段(url源链接字段)空值率必需为0%;3)重要字段(能够确定数据主体的字段(联合主键字段))的空值率需小于15%;4)主要字段(对数据主要内容起描述作用的字段)的空值率需小于30%;5)非主要字段(不影响数据使用的,对主要内容起增加描述性的字段)的空值率小于70%。

10. 更新频率——数据从数据源发布到可应用的生产周期

及时的数据,要求数据从数据源发布到可应用输出的周期短,即更新及时。当数据源发布新数据时,应及时发现、及时采集加工、及时更新输出。对于非定制常备型数据的采集,更新频率可参考下表(T——数据源发布数据之日,+n——从发布至输出可应用数据的天数。)

11. 稳定性——数据保持不间断、持续、快速处理的程度

优质稳定的数据服务要求:稳定服务所占时长比例(非异常)≥99.5% ≈3.65小时故障/月;平均响应时间≤2s,超时比例<2‰(超时:5s以上);支持高并发(同时处理多项服务请求)。

结语

为积极响应习近平主席关于强化、健全金融监管,实施国家大数据战略等系列讲话精神,适应当前互联网人工智能高速发展下,金融机构面临的中小微企业信贷、互联网金融、个人信贷等金融业务愈加复杂的风险防控环境,引入外部大数据资源,补全金融机构内部风控缺失环节,塑造更加完整的风险客户画像,建立基于内外部大数据和人工智能的业务全流程风险管控体系,已成为金融机构的共同诉求。

截止目前,随着市场对外部大数据重要性的不断认可,以及具体的业务实践和技术实践,在数据选择方面,市场正在不断达成一些数据共识,例如数据覆盖面要全、数据解析要准、数据响应速度要快、数据服务要稳等等,但仍未形成一个完整的优质外部数据筛选评价体系。法海风控旗下元界研究院通过对多家国有行、股份行、城商行、农商行、金融机构、征信机构的深度市场调研和具体的大数据风控实践,从众多银行业金融客户的数据领域需求、数据测试、数据应用场景、数据应用建模、数据应用效果等全流程的数据标准中,抽取相关共性规则,归纳出上述一系列优质数据评价标准,目前已在银行客户中进行推广应用,并已取得了很好的实践效果。某全国性股份制商业银行依据上述标准对元界研究院所提供的数据进行测试及建模后,应用于客户风险预警监控系统,已将预警生效率由20%提升至80%,极大的增加了预警监控系统的可用性及有效性。鉴于此,希望本篇《金融机构外部风险数据的标准评价体系》能够帮助各家金融机构,更加快速精准的找到更优质的外部大数据供应商,提升数据质量,健全业务风险管控体系。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。