清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

主办方:
融360
协办方:
中国工业统计教学研究会、中国商业统计协会数据科学与商业智能分会、DataCastle数据城堡
战略合作媒体:
未央网

时间安排

嘉宾评委

薛正华:清华大学金融科技研究院副院长
漆桂林:东南大学计算机科学与工程学院教授
王学钦:中山大学数学学院教授
张爱军:香港大学统计系教授
张宝学:首都经济贸易大学统计学院教授
朱劲杰:BBD首席征信官,曾任中国人民银行征信中心项目部负责人、部门总经理
周虹:中国人民大学财政金融学院教授
周涛:DataCastle数据城堡发起人、电子科技大学教授

大赛简介

第三届融360天机智能金融算法挑战赛于 2018年8月25日正式启动报名。邀请金融科技领域算法人才一同解决价值百亿的经典风控问题,共同探索人工智能领域知识图谱,文本挖掘等热门技术。本届赛题共有三道,分别是“拒绝推断”、“特征挖掘”、“多金融场景下的模型训练”,总奖金池高达30万。

大赛报名官网:点击立即报名

本届赛题

赛题一:拒绝推断

【技术领域】半监督学习、迁移学习

【背景介绍】2016年1月,机构A通过自建风控模型开始放贷,初期获得了良好的收益。随着时间的推移,机构A发现在样本通过率5%不变的前提下,机构逾期率由2016年1月的5%逐步升至2017年7月的15%,大量坏账导致机构A由盈利陷入亏损境地。公司模型人员仔细检查模型,发现其在训练集和测试集上都表现很好,并没有任何异常,百思不得其解 。

在金融信贷场景中,放款机构会通过审核流程筛选用户进行放款决策,机构只能获得放款用户表现数据,对于大量的拒绝用户的还款情况无法获得。随着时间的推移,由此训练的模型在未放款的用户中无法得到效果验证。

但是,金融风控实际业务中却恰恰包含了未通过放款审核的用户客群,导致训练的模型越来越偏离实际情况,致使大量坏账出现,直接带来巨大经济损失。

因此,在只有最优质的放款用户好坏标签的情况下,如何保证建模对所有放款用户和拒绝用户都有良好的排序能力,是金融风控模型需要解决的重要问题。

选手需解答问题:
1、对用户各类信用相关数据进行分析处理,挖掘数据价值,形成建模特征;
2、根据验证样本和测试样本的样本特点,从训练样本中选取合适的训练集,完成建模,保证模型在验证样本和测试样本上的效果。
解决该问题可以是传统的拒绝推断技术,也可以尝试其他机器学习技术,参赛者可自行选择。

赛题二:特征挖掘

【技术领域】 知识图谱、文本挖掘

【背景介绍】融360是中国最大的网络贷款平台,平台的一端是上亿个有借款需求的小微企业和个人消费者,另一端是有贷款资金的数千家金融机构和数十万款金融产品,平台的职责是撮合借款用户和贷款,以及提供必要的风控服务。其中重要的一环是对用户的数据信息进行挖掘,进而全方位立体化的描绘用户特征,更好的服务用户及金融机构。这里分为几步:第一步是大数据化,就是把割裂的分散的数据集中在一起,形成数据仓库;第二步是数据的结构化和网络化,即建立主体之间的联系,关联各种属性;第三步是挖掘和推理,即通过文本挖掘、网络的分析计算,得到想要的知识或特征。

本题要求参赛者根据题目中提供的用户表现,通过数据挖掘技术,筛选出有显著效果的特征,并利用这些特征建立模型,从而更准确的预测用户逾期情况。
选手需解答问题:
1、根据数据情况筛选入模特征,明确特征的生成方式及意义;
2、完成建模,保证模型在验证样本和测试样本上的效果。

赛题三:多金融场景下的模型训练

【技术领域】数据挖掘、建模
【背景介绍】通常,用户进入融360平台后,自行选择最合适的金融机构和金融产品进行申请。因此,融360平台积累了大量不同时期、不同金额、不同期限、不同利率、不同市场环境下的借贷订单。在风控建模过程中,如何针对当前市场环境、金融产品选择最合适的用户样本,关系到模型的最终效果及风控流程中的预测能力,直接影响金融机构的盈利能力。为此,大赛提供融360平台上的部分脱敏数据,希望选手根据实际业务情况,解决问题。

选手需解答问题:
1、对用户各类信用相关数据进行分析处理,挖掘数据价值,形成建模特征;
2、根据验证样本和测试样本的样本特点,从训练样本中选取合适的训练集,完成建模,保证模型在验证样本和测试样本上的效果。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。