「回顾」机器学习在反欺诈中应用

分享嘉宾：** 陈德建 ** 新浪金融高级模型算法研究员

整理编辑：侯美娟

内容来源：DataFun AI Talk《机器学习在反欺诈中应用》

出品社区：DataFun

当前机器学习在金融行业已经运用非常广泛，尤其在金融业的信贷领域。在实践中，欺诈与信贷业务强相关，所以，反欺诈变成机器学习在信贷领域的一大应用。反欺诈一般会用到机器学习、深度学习以及图谱关系，其中，机器学习与深度学习多是针对个人欺诈风险，而图谱关系则多用于团伙欺诈风险的识别。因此，本次分享将介绍欺诈风险的特点以及机器学习、深度学习和图谱在实践中的应用。

一、关于反欺诈

##（一）欺诈风险简介

在信贷领域有两类风险，一类是信用风险，一类是欺诈风险。信用风险主要是对借款人还款能力和还款意愿进行评估，而反欺诈则是对借款人的目的是否正当进行判断。

一般借款人出现信用风险，金融机构可通过风险定价和自有备付金进行防范，风险可控性较大。而当借款人在借款时便以骗贷或骗钱为目的，且金融机构未能及时识别欺诈，则会出现未能通过借款赚取利息，反而被骗走本金的情况，尤其无法识别团伙欺诈时，会在短时间内遭受非常严重的后果，金融机构面对此类风险的可控性便会非常小，所以欺诈风险是金融机构零容忍的。

##（二）反欺诈生命周期简介

信贷反欺诈要从防御开始做起，所以应从用户申请到放款整个生命周期的各个阶段特点进行分析，针对各个阶段采取具有针对性的反欺诈措施。其生命周期可参见下图：

如上图，设备与网络防御是反欺诈的第一步，可通过设备和网络层面的检测，防止用户利用设备对金融机构进行欺诈；在第一层进行防御了部分欺诈用户后，再从用户行为层、业务频次层及业务事件异常层识别用户是否有欺诈行为；再经过前四层之后还会通过复杂网络对团伙欺诈进行识别。

二、机器学习应用

（一）反欺诈规则的缺点

反欺诈一般通过两种方式，一种是设定规则，另一种是通过算法。

规则在反欺诈实践中应用也较多，但是缺点也明显，主要表现为：

1. 策略性较强，命中直接拒绝，而且黑名单本身的误伤性也较强；

2. 无法给出用户的欺诈风险有多大；

3. 未考虑用户从信用风险向欺诈风险的转移，尤其是在行业不景气时。

以上缺点机器学习可以进行有效的避免，如可计算用户的欺诈概率有多大，从而采取一定的措施争取客户，而不是直接拒绝，同时也可以通过模型计算用户从信用风险转移为欺诈风险的概率，从而金融机构可及时进行风险控制与准备。

(二) 机器学习有监督模型

评分卡一般运用在信用风险评估，如：A 卡（申请评分卡）和 B 卡（行为评分卡）等，反欺诈也会运用有监督学习，如评分卡（F 卡），具体如下：

做模型的过程中，特征很重要，特征决定模型的效果。反欺诈模型需要从欺诈的角度来做特征，要注意与信用特征区分开，以免与 A 卡和 B 卡的耦合度过高。模型算出的多是概率，一般会将用模型算出的概率映射到分数，具体如下图：

(三) 部分常规机器学习在反欺诈中应用

在反欺诈中用到的机器学习主要有下图几种。其中，iforest 通常用来做数据离群点的异常检测，在应用方面，金融公司可根据自身的规则和算法，将检测出的离群点在评分卡入模的数据方面，进行加权或算法调整。svm 通常也用来做异常检测；arima 则用来作时间序列预测分析；根据现在信贷数据坏样本较少的特点，knn 和 kmean 可以用来做聚类；随机森林则是在做异常检测时进行分类，以上机器学习可通过博客进行更多了解，此处不进行深入讲解。

三、深度学习应用

此部分对人工神经网络（ANN）和时间序列进行简单介绍。

神经网络通常需要大量彼此连接的神经元，每个神经元通过特定的输出函数，计算处理来自其他响铃神经元的加权输入值。神经元质检的信息传递强度，通过加权值定义，算法会不断自我学习，调整加权值。神经网络算法的核心是：计算、连接、评估、纠错和疯狂培训。

时间序列部分介绍 RNN（循环神经网络）和 LSTM（长短记忆循环神经网络）两种算法。LSTM 是 RNN 的优化版，在特征较多时，RNN 计算量会呈指数式增长，其计算复杂度也会增加，如下图：

LSTM 则是在 RNN 的结构以外加入遗忘阀门（forget gate）、输入阀门（input gate）和输出阀门（forget gate），其通过这些阀门节点实现记忆功能，改善了 RNN 在计算过程中会出现的问题，如下图：

时间序列在信贷中有两个比较重要应用场景，一是 B 卡（行为评分卡），一是异常检测。我们着重介绍 LSTM 在这两个场景中的应用。在行为评分卡的应用中，当用户在金融机构进行多次借款时，可以将其以往的借款行为通过统计方法或其他相关方法生成 embedding 进行 LSTM 计算。异常检测的应用可参考下图：

另外在使用 LSTM 时需注意 4 点：

1. 应限制每一个时间序列 embedding 的长度；

2. 对缺失数据做补 0 操作；

3. 针对离散变量的 embedding 尽量不要做 onehot 处理；

4. 样本量少时，应通过仿真模型进行异常检测评估，仿真模型能够有效解决信用风险转欺诈风险的导致模型失效的问题。

四、图谱相关应用

图谱主要用来防止团伙欺诈，也可以根据用户的周边关系判断用户的好坏概率。此次介绍三种图谱关系在反欺诈中的应用。

其中，常规统计一般不会直接用规则，而是将规则做成特征，再带入模型进行统计。比如一度联系人中有多少黑中介，一度联系人中的逾期人数有多少，此类特征的 KS 较高且有效。常规统计一般会用到社群分割和强连通算法。而种子传播层面则需要用到 trustrank，关系 embedding 则可以通过衍生变量将关系向量化，将向量化的关系带入模型进行进一步的分析和统计。

(一) 常规统计

因为资源限制或提高投资回报率的原因，黑产一般会最大程度的利用已有资源，比如，重复的使用现有设备和信息进行多次贷款申请，这样就会出现同一手机号码、登录 IP 或硬件设备出现在多个申请信息中，形成关联网络。常规统计的运用，是通过将数据进行关联，形成关系网络图，然后使用社会关系网络分析工具，分析关系网络图中是否有大量共用设备等拓扑结构。

##(二) 复杂网络 embedding 算法

有时候机器无法识别信息，需要将信息向量化（embedding），将信息向量化后才可以做后续的算法操作。embedding 的方法有很多，此次仅介绍 node2vec 一种。node2vec 的原理是前端为随机游走（random walk），后端为 word2vec。random walk 则采样，将概率最大的关系采样出来并生成类似文本的序列数据，这类序列数据相当于词的共现性，对词的共线性可以做 word2vec，这里的 word2vec 与 NLP 的 word2vec 无差异。Embedding 后会生成 50 维到 128 维的向量，之后进行聚类和分类的操作，具体如下：

(三)trustrank 算法

Trustrank 是 pagerank 的升级版，当前我司用的 trustrank 并不是传统的 trustrank，而是改变其中的某些算法。trustrank 是传播关系的一种算法，根据人与人的关系进行判断和识别。比如，小红和小明是情侣关系，当小红违约时，小明的违约概率会增大，根据类似传播关系用来做定额和模型的衍生变量。Trustrank 的使用需要建立起图谱关系，数据量小时，spark 的 sparkgragh 对 trustrank 的图谱关系支撑较好。