第三届融360天机智能金融算法挑战赛

扫描分享

本文共字，预计阅读时间。

主办方：
融360
协办方：
中国工业统计教学研究会、中国商业统计协会数据科学与商业智能分会、DataCastle数据城堡
战略合作媒体：
未央网

时间安排

嘉宾评委

薛正华：清华大学金融科技研究院副院长
漆桂林：东南大学计算机科学与工程学院教授
王学钦：中山大学数学学院教授
张爱军：香港大学统计系教授
张宝学：首都经济贸易大学统计学院教授
朱劲杰：BBD首席征信官，曾任中国人民银行征信中心项目部负责人、部门总经理
周虹：中国人民大学财政金融学院教授
周涛：DataCastle数据城堡发起人、电子科技大学教授

大赛简介

第三届融360天机智能金融算法挑战赛于 2018年8月25日正式启动报名。邀请金融科技领域算法人才一同解决价值百亿的经典风控问题，共同探索人工智能领域知识图谱，文本挖掘等热门技术。本届赛题共有三道，分别是“拒绝推断”、“特征挖掘”、“多金融场景下的模型训练”，总奖金池高达30万。

大赛报名官网：点击立即报名

本届赛题

赛题一：拒绝推断

【技术领域】半监督学习、迁移学习

【背景介绍】2016年1月，机构A通过自建风控模型开始放贷，初期获得了良好的收益。随着时间的推移，机构A发现在样本通过率5%不变的前提下，机构逾期率由2016年1月的5%逐步升至2017年7月的15%，大量坏账导致机构A由盈利陷入亏损境地。公司模型人员仔细检查模型，发现其在训练集和测试集上都表现很好，并没有任何异常，百思不得其解。

在金融信贷场景中，放款机构会通过审核流程筛选用户进行放款决策，机构只能获得放款用户表现数据，对于大量的拒绝用户的还款情况无法获得。随着时间的推移，由此训练的模型在未放款的用户中无法得到效果验证。

但是，金融风控实际业务中却恰恰包含了未通过放款审核的用户客群，导致训练的模型越来越偏离实际情况，致使大量坏账出现，直接带来巨大经济损失。

因此，在只有最优质的放款用户好坏标签的情况下，如何保证建模对所有放款用户和拒绝用户都有良好的排序能力，是金融风控模型需要解决的重要问题。

选手需解答问题：
1、对用户各类信用相关数据进行分析处理，挖掘数据价值，形成建模特征；
2、根据验证样本和测试样本的样本特点，从训练样本中选取合适的训练集，完成建模，保证模型在验证样本和测试样本上的效果。
解决该问题可以是传统的拒绝推断技术，也可以尝试其他机器学习技术，参赛者可自行选择。

赛题二：特征挖掘

【技术领域】知识图谱、文本挖掘

【背景介绍】融360是中国最大的网络贷款平台，平台的一端是上亿个有借款需求的小微企业和个人消费者，另一端是有贷款资金的数千家金融机构和数十万款金融产品，平台的职责是撮合借款用户和贷款，以及提供必要的风控服务。其中重要的一环是对用户的数据信息进行挖掘，进而全方位立体化的描绘用户特征，更好的服务用户及金融机构。这里分为几步：第一步是大数据化，就是把割裂的分散的数据集中在一起，形成数据仓库；第二步是数据的结构化和网络化，即建立主体之间的联系，关联各种属性；第三步是挖掘和推理，即通过文本挖掘、网络的分析计算，得到想要的知识或特征。

本题要求参赛者根据题目中提供的用户表现，通过数据挖掘技术，筛选出有显著效果的特征，并利用这些特征建立模型，从而更准确的预测用户逾期情况。
选手需解答问题：
1、根据数据情况筛选入模特征，明确特征的生成方式及意义；
2、完成建模，保证模型在验证样本和测试样本上的效果。

赛题三：多金融场景下的模型训练

【技术领域】数据挖掘、建模
【背景介绍】通常，用户进入融360平台后，自行选择最合适的金融机构和金融产品进行申请。因此，融360平台积累了大量不同时期、不同金额、不同期限、不同利率、不同市场环境下的借贷订单。在风控建模过程中，如何针对当前市场环境、金融产品选择最合适的用户样本，关系到模型的最终效果及风控流程中的预测能力，直接影响金融机构的盈利能力。为此，大赛提供融360平台上的部分脱敏数据，希望选手根据实际业务情况，解决问题。

选手需解答问题：
1、对用户各类信用相关数据进行分析处理，挖掘数据价值，形成建模特征；
2、根据验证样本和测试样本的样本特点，从训练样本中选取合适的训练集，完成建模，保证模型在验证样本和测试样本上的效果。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。