报告！机器学习已发现欺诈嫌疑人群……

扫描分享

本文共字，预计阅读时间。

欺诈是一项超过十亿美元的业务，而且每年都在增长。普华永道2018年全球经济犯罪调查发现，在被调查的7,200家公司中，有约一半（49％）经历过某种形式的欺诈。而相关第三方数据调查显示，消费金融及互联网金融公司的坏账中接近50%来自于欺诈。其中，身份冒用类占比例最高，其次是团伙欺诈以及恶意违约等。另外，多头借贷行为也非常猖獗。反欺诈简单来说，就是为了找出“羊群中的狼”，其必要性和紧迫性不言而喻。

用于欺诈检测的技术可分为两大类：统计分析和人工智能。

统计分析技术的例子包括：

• 数据预处理 - 用于检测、验证、纠正和填充缺失或不正确数据；

• 计算各种统计参数 - 例如平均值、分位数、性能指标、概率分布等。例如，用户通话记录的平均呼叫时长，每月平均呼叫次数和账单支付的平均延迟天数；

• 时间序列分析 - 预测变化趋势与风险；

• 聚类分析 - 查找数据之间的模式和关联性；

• 匹配算法 - 检测交易或用户行为中的异常。

用于欺诈管理的主要人工智能技术包括：

• 数据挖掘 - 对数据进行分类、聚类和分段，并自动查找数据中潜在的模式和规则，包括与欺诈相关的模式；

• 专家系统 - 规则的形式来检测欺诈的专业知识；

• 机器学习 - 自动识别欺诈特征；

• 神经网络 - 从样本中学习可疑模式，并在未来检测它们。

其他人工智能技术，如链接分析、贝叶斯网络、决策理论和知识图谱等，也可用于欺诈检测。

欺诈的新手段和方式层出不穷，仅依靠单一或简单的方法远远不够。上述方法和技术已经在业界获得一定程度的应用，业界对于相关技术的认可度和重视度也在与日俱增。

事实证明，充分利用统计分析、机器学习技术乃至复杂的人工智能模型等，能够极大地提升公司的反欺诈水平，降低欺诈损失。

在下文中，笔者将主要介绍机器学习技术的反欺诈应用，讨论建立反欺诈机器学习模型的流程以及分享一些提升模型效果的思路。

01 机器学习技术的反欺诈应用

实际业务中，常见的反欺诈手段主要包括：黑名单法、反欺诈规则系统以及机器学习技术。前两种方法实施简单，且可解释性较强，但往往存在滞后性严重和准确度低的问题。而建立反欺诈模型，特别是基于机器学习的反欺诈模型，可以通过多样的算法来准确地识别欺诈属性，降低欺诈风险。

如上图所示，我们将机器学习和人工智能解决方案分为两类：“有监督”和“无监督”学习。

有监督学习

有监督学习，或者说监督式学习，是反欺诈检测中最为广泛使用的机器学习模式。其模型技术包括但不限于决策树算法、随机森林、最近邻算法、支持向量机和朴素贝叶斯分类等。

监督式学习的机器学习模型通常是从有标签的数据中自动创建出模型，来检测欺诈行为。简单地说，就是通过学习经过分类的资料，建立一种模式，并依据这一模式来推测和判断新的实例。

具体而言，监督神经网络、模糊神经网络以及神经网络和规则的组合已经被广泛应用于电话网络和财务报表欺诈；贝叶斯神经网络用于信用卡欺诈检测、电信欺诈、汽车索赔欺诈检测和医疗保险欺诈等。

这种类型的模型仅能够检测与先前已经发生的欺诈案例相类似的欺诈。想要检测新型欺诈，还需要使用无监督的机器学习算法。

无监督学习

相反，无监督方法不需要预选和标记欺诈类型。无监督学习的反欺诈模型使用各维度的数据和标签进行聚类，从而找出与大多数用户行为相差较大的，并予以拦截。

下图展示了主要反欺诈手段出现的先后以及各自的检测效果和优缺点。

黑名单和规则系统不能迅速和有效地应对变化的欺诈手段，显得有些“后知后觉”。有监督的机器学习需要人工标记欺诈标签来训练模型，无监督学习则可以自动产生标签，挖掘和聚类未知的欺诈行为。

迄今为止，尚未出现较为成熟和经过实践验证的无监督学习解决方案，一方面，无监督学习对于数据的广度、深度都有着极其高的要求，另一方面，我们的对于该方法的探索还有待加强。

无论是使用监督方法还是非监督方法，输出仅为我们提供欺诈的可能性，没有独立的统计分析可以确保特定对象是百分百欺诈性的，但是模型识别的准确度非常高，尤其是结合黑名单和规则系统后，综合准确率会大大提升。

02 反欺诈模型流程

反欺诈模型的流程主要包含数据采集、数据预处理、风险特征挖掘、模型构建、模型监控五个环节，如下图所示：

数据采集

数据的质量和维度是成功模型的基础。在数据采集阶段，既需要整合内部数据，如用户申请信息、交易数据、网络及设备终端数据等，又需要外部数据的补充。许多用于反欺诈的外部数据来自法院、公安部、工商局、社保局等，包含了刑事犯罪信息、商业犯罪信息、违法账户等信息。同业共享的各类欺诈信息也是重要的外部数据。

由于数据来源广泛，直接导致数据种类和规模急剧增加。公司在数据处理技术方面除了采用成熟的商用数据库外，还应广泛应用大数据分析技术。

数据预处理

数据预处理主要是对数据进行结构化的处理，比如数据类型转换、缺失值和极端值的处理等，或是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

对于客户数据，可跨越不同渠道归集客户相关属性，如年龄、账龄、教育程度、地域等要素，建立客户画像档案，描述客户特征。对于商户数据，应根据商户信用评级信息、产品销售量、商户类别等要素，建立商户档案，划分商户风险等级。

风险特征挖掘

在风险特征挖掘阶段，常用的分析方法有假设分析、关联分析、模式归纳分析等。比如，假设分析的目的是对问题提出各种可能的假设，并评估假设的分析过程；关联分析旨在从大量数据中发现事物之间有趣的关联和相关联系。

对客户的各类信息进入深入分析，以时间、频率、距离、比例等统计口径，建立风险特征库，比如近3个月交易金额，距离一公里以内的申请总人数等。运用大数据技术，计算出每个风险特征对相应变量的贡献能力，以及各风险特征之间的相关性，选取重要性高和贡献力强，以及相关性弱的变量，作为后续建模的备选变量。

模型构建

反欺诈模型可使用传统的逻辑回归和流行的机器学习模型，比如Boosting算法类别的Adaboost、GBDT、XGBoost等。其中热门的Xgboost模型，其主要优化点在于对损失函数做了二阶的泰勒展开，并在目标函数之外加入了正则项对整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。

一般来说界定模型的好坏有两个方面，一个是区分能力，另外一个是稳定性，常用K-S值和PSI等指标来衡量。

模型需要不断迭代优化，才能贴近真实情况。在模型迭代阶段，运用交叉验证等方法，不断优化模型，使模型各项指标（包括准确率、对数损失函数、精确率-召回率、混淆矩阵等），达到理想的预测效果。

模型监控

经过模型评估、选择及审批后，需要技术部门配合进行部署、生产测试，最终投入使用。在模型上线后，定期对模型的稳定性、区分度、精确性等指标进行监控。根据宏观经济环境或内部业务的变化，及时进行模型检测，及早发现隐患。根据监控结果，在模型性能发生明显退化时，根据退化的严重程度对模型进行迭代调整，或是重新开发。

03 如何提升反欺诈模型性能

如果发现反欺诈模型的效果不太理想，可以尝试从以下四个方面提升：

一是数据方面，如果最终模型效果不太好，首先考虑数据采集阶段的变量维度是否足够，同时也需要尝试构建出更多的特征来。数据预处理是否到位，是否考虑到各种情况，有没有犯低级错误，导致后续建模效果不好等。

二是算法选择，使用一个简单的算法，比如线性模型，作为基准模型，后续用复杂的算法来拟合数据，对比各种模型在所拥有数据集上的表现与提升，通常复杂的算法会比线性的算法有着更好的效果，但也意味着更多的调参时间。

三是算法调参，一般说来，越复杂的算法所需要的参数越多。比如神经网络的参数就非常多，对算法本身需要有一定的了解，再花时间去一步步调参。

四是模型融合，当我们使用不同的或相似模型不同参数的模型得到结果后，可将各个模型融合在一起，各模型作为新模型的输入重新训练，这样综合起来的模型效果可能会出乎意料。

至此，我们还必须认清一个现实：单纯依靠机器学习模型来检测欺诈是片面的。比较折中且可行的方法是把人为欺诈规则和机器学习模型合二为一，一起来使用。反欺诈模型难度很高，需要和反欺诈领域专家一起协作才能有最好的结果。

04 结语：技术与风控助力反欺诈

互联网金融科技的迅速发展成为整个新金融不可逆转的大方向，新技术的逐步应用落地将逐步挤压“黑灰产业”的生存空间。随着市场的相关政策法规的完善，以及大数据、人工智能等技术的应用，互金行业必将走上发展的快车道。

有阳光的地方总会有阴影，阴影的存在方能彰显阳光的难能可贵。技术、监管和风控三位一体助力金融反欺诈，金融行业的太阳每天都会照常升起。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。