清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

随着消费金融行业的兴起,欺诈风险控制行业水涨船高, 专业反欺诈人才供不应求,市场薪酬价值可到百万,究其原因是这个领域的“新”。

所谓新,主要缘于3个方面:一是传统从事刑事案件侦查的探员型人才熟知线下诈骗套路,多偏向于电信诈骗,对信贷申请的欺诈场景并不熟悉;

二是信用卡和消费金融公司的反欺诈人员多是经济学、统计学类算术型学科,对科技并不熟悉;

三是反欺诈从业者较少有机会涉足真实的黑产市场,对欺诈手法的演变和欺诈事件的爆发并不具备敏感性,无法行之有效及时的做出应对措施。

因此,形成了一种错配局面,人才的错配带来的常常是对欺诈风险靶向把握不清的问题。

设备反欺诈策略与业务实际的错配

作者在近几年的工作中,了解到一些公司在做反欺诈方面的心得和体会,也有聊到一些反欺诈策略设置方面的问题。

我发现这里面有80%的策略是相似度很高的,例如很多策略人员会部署“是否使用模拟器借款”这个规则。

因为黑产经常会用PC模拟手机设备申请贷款,规则本身没错,而有些人并不了解一件事,有些APP是不支持X86处理器运行的,几乎所有的PC是X86处理器的配置,而手机设备是ARM处理器的配置,如果你的APP是只支持ARM架构的,当你把apk文件拖拽到模拟器加载列表时,就会发现系统无响应。

多数做策略的人并不是科技开发人员出身,对于软件、硬件、环境信息、网络资源、设备指纹算法,以及这些信息技术的发展演变趋势并不十分了解,造成了策略与业务实际的错配。

大概两年前,有一家做设备指纹厂商的咨询专家在介绍设备指纹技术的安全性时,提到了通过检测一键改机软件识别设备指纹是否被篡改的问题,而很多策略人员也部署了一条名为“是否安装了一键新机软件”的规则,而其实随着隐私安全要求的不断提升,很多机型已经无法获取root权限。

也就是说即使安装了AWZ、NZT这些软件,也无法达到篡改信息的目的,反而会出现误杀,即使是已经root的设备,缺少Xposed框架的NZT也是无效软件。

再退一步说,篡改信息还不一定要通过下载软件实现,网上有很多免费的生成IMEI、SN的软件,所以外部导入文件也可以达到修改的目的,所以这类策略的效果我始终打个问号。

建议大家在使用这些设备指纹技术的时候,还是要深入了解底层的技术原理和算法逻辑,拿设备ID的生成算法来说,目前最多使用的还是相似度算法,除了使用硬件、软件、环境信息、网络信息变量进行设备ID的生成外,聪明的制造商还会事先定义多组DeviceId编码,所以即使你恢复了出厂设置,或者重置了你的IDFA,也可以再次追踪到你的设备。

其实再完美的技术都有可能被破解,如果不考虑成本,破解设备ID也并非难事,尤其是在网页、H5端,但当业务发展到成熟期,高质量的自有数据一定是比设备指纹技术更加有效识别风险,大家不妨尝试关联关系挖掘和区域分割。

文本类语言处理缺陷与信息识别能力的错配

相比于英文文本的处理,汉字文本处理面临了太多的难点,方言、同音字、多音词、谐音字、音调等等,其中,字词切割我个人认为是与互联网金融关联最密切的一个处理难点。

举个例子,“北京市北京市朝阳区光华路阳光100公寓103室”和“北京市北京市朝阳区光华路阳光100103”,在中文语言习惯里我们有时不会给自己所描述的建筑物加上单位或者是类别,例如这里面的“公寓”,去掉了这个类别词,机器会把“阳光100103”切为一段。

在众多的分词算法中,应用最多最广的是正向/反向最大匹配法,这是从美国起源的,引用无名人士的一项研究成果:“中文中90%的句子,可以使用正向最大匹配法和逆向最大匹配法达到完全重合且正确,只有大概9%的句子两种切分方法得到的结果不一样。

但其中必有一个是正确的(歧义检测成功),只有不到1%的句子,正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)”。不过我个人对这个数字存疑。

不论是采用上面的方法还是使用N-gram,原理都是使得目标文本S的切词路径概率P(Wi)最优,分词搜索词库的数据量和类型决定了分词准确率的上限,一些开源的SCWS、ICTCLAS分词系统都有比较久的中文实践,但是受业务类型和客户来源不同的影响,开源词库的本地化也是一个漫长的过程。

实践中,对于单位名称这种填单过程中经常会收集的信息,采取正向最大匹配法和逆向最大匹配法的效果尚可,原因在于单位名称文本中所包含的阿拉伯数字格式相对简化于地址信息,而且超过4字符的比例很低,甚至可以采用暴力穷举法定义可能的情况。

但地址信息涉及到楼号、单元门号、室号,如果采用最大匹配法,很容易将缺失关键字的地址匹配误识为不同地址,而像2-gram这样的语言模型倒可以试一试,但和TTS应用场景不同(TTS可以看成是一种自然语言翻译而不是进行文本匹配,前一次翻译的信息和第二次不一样也是常事)。

但我们的应用场景是将两段看似不同实则相同的信息进行匹配且要成功判断出“coincident/inconsistent”,这个过程是“先切+再补+后配”,难度首先在于切分,其次在于补全,所以在使用2-gram算法时,加入地图信息佐证,计算最可能的Wi。

地理位置信息与识别群体聚集特征的错配

在日常业务中,大家经常用地理位置坐标识别客群聚集的特征,客户聚集是识别欺诈的一个重要因素。

先说一个跟聚集特征没什么关系的事,但也跟地理坐标有关系,我们都知道经度是-180°—180°,纬度是-90°—90°的区间值,像(89°,181°)这样的经纬度显然是手动生成的,再比如像(90°,180°)是哪里?好像是阿蒙森-斯科特站,原来有一个人站在南极圈申请你的贷款。

言归正传,显然今天我们要说的不是这些简单欺诈问题,而是使用地理位置信息进行区域划分容易造成的误伤问题。对于我们而言,不论是GPS定位,还是基站、WIFI定位的Position只是一个数据,直接应用这个节点信息进行区域划分只能粗略的对申请人进行区域分割,经常会脱离实际场景。如商场、机场、公园这样的公共区域,如果不详细予以区分很容易造成大量的误杀;另一方面,对移动物体里设备的定位也是存在很多问题,不解决这些问题,地理位置反欺诈的效果一定很差。

下面我们用精度最高的GPS定位法进行一些必要的说明:

光照强度和建筑物等都会对GPS产生干扰,据谷歌地图测算,即使利用卡尔曼滤波校正后的地理位置误差仍然有10-50m,不过有了RTK之后,这种误差应该降低了,具体数字不是很清楚。

正因为这种误差,使得我们将GPS坐标转换为地图结构信息变得非常有实际意义,每个申请人就有了场景属性。在GPS坐标向地图位置转换过程中,一般要经历以下几个步骤(感兴趣的可以去研究一下高德地图):

获取当前GPS位置信息,根据目标前一状态和移动速度,移动偏转速度、传感器等信息,进行相对位置估算。

载入地图数据,获取结构化的道路(建筑物)信息,计算长度和其包含的坐标点,计算可能位置,在一定范围内筛选一个或多个路段(建筑物)作为候选匹配道路(建筑物)。

计算各个位置匹配的质量,将所有可能的匹配进行快速排序法,选择排序度最高的道路(建筑物)信息。

完成了GPS向地图转换的工作,我们就可以给处于公共区域的坐标点进行差异化处理,对于街道、马路的移动对象可以忽略不检测,对于常出现在某一个场景的人还可以推测职业,所以不仅仅是反欺诈可以用到,政策也可以拿这个功能打标签。

解决了公共区域误判的问题,又有一个新的问题摆在我们面前,那就是如何进一步识别室内型的公共区域的漏识别问题。

我们以写字楼为例,写字楼里一般都是分室和单位的,我们希望能够区分室和单位从而定位人员是否异常聚集,但GPS对于室内的效果是非常不理想的,如果沿用上述的方法进行地图匹配,得到的结果通常是临街道路名或大楼的名称,并不能匹配到楼层、单位、室,而室内定位比较好的方法。

如:蓝牙定位、红外定位、RFID射频定位、超声波定位、Zigbee定位、UMB定位,这种物理定位面临着成本高、部署难的问题,无法推广应用,当前比较成熟的方法是运用WIFI进行定位,每一个无线AP(WIFI路由器)都有一个全球唯一的MAC地址,并且一般来说,无线AP在一段时间内不会移动。

在开启WIFI的情况下,采集设备可以获取它的MAC地址和信号强度信息,采集设备将这些信息上传到服务器,经过服务器的计算,保存为“MAC-经纬度”的映射,当采集的信息足够多,就在服务器上建立了一张巨大的WIFI信息数据库,所以如果你的WIFI不在服务器记录里,定位也就无从谈起了。

综合起来,为了避免地理位置信息与识别群体聚集特征的错配,首先是对地理坐标进行地图场景化,在场景化后再使用GPS进行距离计算,可以以5m*5m的正方形作为一个单位、室。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。