慧安金科黄铃：做基于人工智能的风险反欺诈引擎

扫描分享

本文共字，预计阅读时间。

12月6日，清华大学金融科技研究院主办的中国金融科技大会·金融深科技论坛（2017）在北京正式召开，慧安金科创始人/CEO黄铃博士参加了该挂牌仪式并在论坛上发表演讲。演讲中，黄铃向参会人员介绍了慧安金科通过人工智能、大数据的手段进行金融风控和反欺诈的一些经验和收获。

黄铃表示，慧安金科通过用户大规模的行为关联分析，用半监督主动式机器学习算法，能够提前预警和检测欺诈团伙并主动的学习新的欺诈攻击方式，不断追踪新的欺诈模式，为金融监管和金融科技企业提供人工智能技术、必要工具和合规使用大数据的方法。

慧安金科创始人/CEO 黄铃

以下是演讲全文：

尊敬的各位领导、各位来宾上午好！非常有幸参与到清华大学金融科技研究院的筹建过程中，今天在这里见证了它的成立感到非常的荣幸，也向学院表示衷心的祝贺。

今天我也借着这个机会向大家汇报一下，慧安金科在使用人工智能大数据的手段来做金融风控和反欺诈领域的一些经验和收获。

慧安金科是一家提供人工智能的金融风控和反欺诈的技术公司，这个公司是由我和徐葳博士深度合作，在清华大学交叉信息研究姚期智院长和五道口金融学院廖理院长的关心和指导下成立起来的。我们是使用人工智能方法，提炼大数据价值，构建网上反欺诈体系，进而实现“网上无贼”的愿景。

我们公司的创始人都是在加州大学伯克利分校计算系博士毕业，我主要的背景是人工智能，网络安全和反欺诈。在加州伯克利博士毕业以后，在硅谷的Intel研究院任职资深研究员长达7年；在离开Intel之后和几位朋友一起在2014年在美国创建了一家反欺诈公司，就任大数据总监；综合多年的实践经验，在大数据、人工智能和反欺诈领域有长达15年的研究和实践的经历。在2016年9月回到国内，非常荣幸得到姚期智院士的欣赏，能够在交叉信息研究院就任兼职教授，并创建了慧安金科这家公司。

慧安金科成立的主要背景就是因为当前互联网和金融企业所面临的各种挑战：今天互联网企业和金融机构面临着超过160万灰产和黑产从业者有组织、专业化的攻击。随着金融产品的日益创新以及它和互联网紧密的结合，给普通民众带来很多便利和高效的客户体验，但同时也给欺诈分子带来很多的机会，造成大量围绕着欺诈的经济损失高达数千亿。

这些欺诈分子在全球范围内进行有组织、有规模的协作，进行大规模的包括手机、计算机设备的攻击，生成和盗取各种用户的账号，冒用用户的身份，进行各种各样的欺诈活动，包括大规模恶意注册、恶意的骗贷、盗卡盗刷、非法集资、非法洗钱和关联交易等等各种非法活动。这些专业化的团伙往往技术非常的深厚，有各种各样最先进黑客的技术和人工智能的技术，让我们这些处在白道的团队防不胜防，并总处于被动的防守状态。

我们慧安金科成立主要的一个核心，就是使用现在最先进的人工智能技术来分析用户账号的各种行为，检测其中虚假非法、盗用和恶意的活动，遏制欺诈行为源头，打击欺诈分子的嚣张气焰。

与此同时所要面对的挑战，在市场上也有很多种其他的解决方案。但是我们认为市场上的这些解决方案，还是不完全足够防范技术实力非常深厚团伙的欺诈活动。比如说：现在很多的解决方案中，往往会涉及到很多使用黑/白名单、规则系统、（甚至有些打着“人工智能和大数据”的幌子，肆意地非法采集用户隐私数据。）机器学习模型来检测各种欺诈活动。

但在我们看来，这些方法往往只是做一些比较浅层的分析，只能检测一些简单或者已经发生过的各种欺诈活动，是属于亡羊补牢的解决方案。很多时候他们的准确率和覆盖率都是不够的，而且很容易被狡猾的黑产活动、欺诈分子所规避。即使今天我们使用了有监督的机器学习模型，但是也会存在很多的局限性，比如我们的机器学习模型，往往是依赖于很多标签数据进行训练。但这些标签往往都是我们遭到攻击以后才能产生的，是付出血淋淋的代价才能获得的标签，往往都很稀少。这种标签训练出来的模型质量不够高的，而且这种标签训练出来的模型，往往只代表过去历史上发生过的欺诈行为。当欺诈分子变换新手段的时候，依赖于过去标签训练的模型，往往很难快速、准确地抓到他们。

那么基于现在这样的凶险恶劣的环境背景下，我们慧安金科采用最新的半监督主动式机器学习方法，来开创出全新的反欺诈和金融风控的体系，达到防范于未然的效果。我们的核心就是用最新人工智能的方法，不使用跟用户隐私数据，而利用这些用户账号在客户平台上的行为大数据进行分析，针对客户自有场景进行建模。

针对用户账号的行为大数据，我们既对用户单个行为进行高维特征提取和精准画像，同时我们又对多用户之间进行行为关联分析，从而能检测到欺诈团伙的活动。在这个基础上，我们采用半监督机器学习方法，使用很少的标签，结合大量无标签的数据进行建模，就可以产生非常高质量的模型。这样的模型往往是基于用户行为的异常进行检测，可以做到提前的预警。

同时，我们采用主动式机器学习平台，有机的结合人工智能大数据系统超大规模的数据处理能力和我们安全专家及风控专家丰富的经验，帮助人工智能系统自动的学习未知的欺诈模式，追踪新的欺诈手段，不断的适应日益变化的环境，从而生成可以对抗欺诈分子机器学习模型，使得欺诈分子很难规避我们的检测。

基于这些创新的人工智能技术，在无需知道欺诈的类型和特点的情况下，我们开发的网铃产品能够主动的从成千上万用户特征上寻找各种不正常的关联，从而提前检测各种潜伏的团伙欺诈，能够查找各种未知的、隐藏的欺诈威胁，防范于未然。

说到这里，让我们来仔细看一下，网铃所提倡的半监督主动式机器学习方法跟过去的有监督或者规则系统不太一样的地方。

这里我举一个例子，你可以看到，在这个页面上，有加号和减号的各种点，这表示有好、坏标签的用户，你可以认为横轴是它的IP地址，竖轴是它的电话号码。在知道这四个点的情况下，我们可以训练一个机器学习模型，就是其中红线分类器，把好人和坏人区分成两个区域。然而，当我们观察到很多无标签数据时，你可以看到，这个通过少量标签数据训练出来的分类模型会发生很多错误，在几个区域对好坏用户的区分是非常不准确的。

但是，如果我们采用半监督的机器学习方法，将聚类和分类方法相结合，可以先对全体数据进行聚类分析，在这个基础上再加入有监督机器学习，我们就可以学习到一个更好分类的模型，把所有好用户和坏用户完全正确地区分开来。

当然大家也问，为什么这个方法这么好，现在用的还不是特别多。最主要的一个原因就是因为半监督机器学习模型通常会用到用户关系图的 n 平方个计算项，n 是总的用户数量，所以整个模型求解的算法复杂度是 n 立方。你可以想象如果有10万个用户，n 立方的计算量就很大了。对于我们今天有百万、千万甚至上亿的用户量，如何求解半监督机器学习模型是一个非常有挑战的事情。

我们慧安金科开发了一整套近似的关系图的并行计算方法，在超大规模图上实现半监督机器学习算法。我们的算法保证在近似求解过程中一些重要的信息不会丢失，保证近似模型和原来的精确模型的误差很小。

在这套大规模半监督主动式机器学习算法的基础上，我们开发了网铃的反欺诈、金融风控整个体系和基于SaaS服务的云平台。我们的服务系统对接用户的行为数据，包括用户的注册、登录和转钱等各种行为日志。经过我们一个标准的数据接口做数据的解析、标准化处理和脱敏处理之后，导入到我们平台上。对这些不涉及到用户隐私的数据进行大规模的图分析和半监督的建模后，就会进入到可视化、结果分析和审核的界面里。这时候我们的专家和客户，可以对它进行结果反馈。反馈的结果会直接进入到我们大规模图分析和半监督机器学习平台上，融合专家经验帮助我们人工智能系统不停的进化，形成一个闭环，从而达到对抗欺诈分子的最佳效果。

基于这个平台上，我们的网铃系统正在和多家互联网企业和金融机构进行合作，我们提供一整套基于SaaS的服务，能够检测大规模的欺诈开户、养号、刷单、团伙骗贷、盗卡盗刷和洗钱等各个方面的服务。我们的平台既可以提供公有云的服务，也可以和客户合作提供私有化的部署。

在这里给大家总结一下，慧安金科，是在金融科技研究院指导和关心下成立的一家公司，我们使用半监督主动式人工智能方法来做用户大规模的关联分析，能够提前预警、检测欺诈团伙，并主动的学习新的欺诈活动，不断的追踪新的欺诈模式，为各级金融监管部门、互联网企业和金融机构提供人工智能技术和反欺诈金融风控的工具，为清华金融科技研究院添砖加瓦，谢谢大家！

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。