大资料风控是现在金融科技公司白热化竞争的业务场景,那大资料风控到底是什么?这个行业前景如何?有哪些机构在布局竞争?有哪些产品形态?本文将围绕个人借贷场景,为你一一揭晓。

一、大资料风控是什么?
大资料风控按照通俗的概念解析:通过运用大资料构建模型的方法对借款人进行风险控制和风险提示。
这句话涵盖大资料风控必要的4个要素:
1. 原材料:大资料
2. 实现方式:技术模型
3. 目标人群:场景中的群体。
由于本文主要指个人借贷场景,则目标人群是借款人。还有其他场景,例如信用卡场景对于信用卡申请人、购物场景针对分期使用者、租房场景针对租金分期使用者、投保场景针对投保人、投资理财针对投资人等。

4. 目的:风险控制和风险提示。一般机构主要有2个目的:
潜在的特点是可以大批量实时实现风险控制和风险提示。
二、传统风控与大资料风控的区别
大资料风控的叫法其实就是为了与传统风控做区分。
传统风控在2016年之前相对比较普遍,其特点是线下风控场景为主,需要使用者填写一大堆个人资讯及提供工作证明、流水证明、住址证明等,稽核时间一般为1-3天,银行体系会更长3-7天左右。
正常情况,一份使用者资料表需要填写包括以下这些资讯:姓名、性别、年龄、身份证号、家庭地址、学历、家庭人数、婚姻状态、单位名称、单位电话、工作职务、单位性质、收入来源、收入水平、配偶详情、经营企业详情、其他资质等资讯。
除了这些资讯,还需要提供纸质的身份证影印件、工作收入证明(盖章)、半年银行流水、水电费或房屋租赁合同等。
另外,银行等持牌机构还会查询使用者在央行的征信报告,用于辅助风控。

这些资料潜在的意义可以这样解读:除了年龄代表准入门槛,一般的借贷产品要求借款人需要有22岁以上才可以申请,现金贷产品会把年龄门槛放到18-20岁及以上。部分产品要求学历是高中及以上,或者要求非在校生。其他的分组后分别代表借款使用者的还款能力,负债情况及信用情况(这里不细分还款意愿)。
直接体现或者间接体现还款能力的:
体现负债情况和信用情况的:央行征信报告
拿到这些资讯及材料后,由风控专员凭借经验及按照标准化流程稽核材料真实性。例如工作收入证明通过拨打公司电话核查有无本人及职位情况、其他资质材料看印章判断真实性,流水会打银行电话抽查真实性等。
传统风控的模式及节奏是不符合互联网金融高速发展的节奏的,互联网金融时代都是按秒级几百上千使用者群同时发起贷款申请,如果按照人工稽核,从进件到批核整个流程可能要1个月时间都没法完成。
传统风控向大资料风控的升级,即是行业发展的需要,也受益于各类使用者资料被标准化对外,也就是API的形式对外输出,金融机构可以直接接入各种必须的资料界面,用于获取使用者的资料。
整个流程从使用者填写将近所有的资讯,变成只要提供姓名、身份证、银行卡号、手机号这个4个要素就可以获得全部或大部分风控必需的使用者资讯。
大资料风控的快捷得益于各种标准化的资料界面,但由于代表使用者的各种资料是分别存在与不同的机构中,这些资料原则上需要使用者授权才能对外,而且资料输出需要进行合规脱敏的处理。
所以,大资料风控需要获取到与传统风控要求使用者填写的所有资讯、或者直接或间接证明使用者还款能力、还款意愿、负债情况及信用情况必须的资料,每个型别需要接入几个资料来源,缺失的型别还需要找到能够替代的资料界面。
大资料风控需要的资料型别,在后面章节再详解。
三、哪些行业及场景需要大资料风控
除了借贷场景,还有哪些场景需要用到大资料风控?
这里,猎人简单举几个例子:
金融行业最常见就是投融资板块,投资板块,需要对非法集资、洗钱、资金盗刷等风险进行防控。
借贷板块,需要进行贷前进行反欺诈及使用者风险识别、授信风险评估、贷中风险评估及贷后风险预警。

电商行业需要在使用者注册环节进行防薅羊毛、对已注册充值使用者需要防止其资金被盗刷、账户被盗及发生交易后对经常拒付的情况需要识别。
保险行业特别是寿险产品,需要对投保人身份进行核实,防止有不良行为投保使用者过审发生骗保。
除了这些常见的行业场景,其实各行各业只要涉及到个人资讯及资金交易的,都会用到大资料风控,唯一的区别就是针对不同场景的需要的资料及策略是不一样的。
四、大资料风控行业有哪些机构参与
传统风控基本都是由金融机构内部的风险部门及门店经理组成,大资料风控更多是由第三方机构提供。
大资料风控行业主要有以下7大型别机构参与:

这些机构拥有场景、资金、放贷业务三者全部或者其中一块要素,这些要素决定了其在大资料风控的竞争壁垒。
场景代表有源源不断的资料,及精准的客群画像,可以无成本或低成本用于风控业务;
资金代表了可以随意切进任一借贷场景,获取资料及影响产品形态;
放贷业务表示在特定场景有一定的使用者借贷表现的资料及基础的风控能力,部分机构的成熟风控能力还可以直接对外输出变现,切入到体系外的场景获取更多的资料。
因此,资料量级、资料成本、风控经验、资金风险承受能力综合决定了一家机构在大资料风控是否有足够的竞争力。
五、大资料风控机构存在的意义
个人借贷金融板块的大资料风控行业的前景,主要可以看2方面:
一个是不含房贷的国内消费金融市场规模及渗透情况。只要消费金融市场的存量客户,有复贷需求,且增量客群还有转化空间,代表着借贷业务是持续发生的,则这里对风控的需求是持续不断的。
我国个人消费金融的市场规模从2013年的12亿到2018年的将近38亿,翻了3倍有多;而不含房贷的规模到2018年则到了8亿,渗透率为22.36%。如果到2020年渗透率可以提升2.5%,则市场规模有个3.5万亿的提升。这个空间足够众多公司在此竞争。

大资料风控机构其中的一个收入来源就是资料界面的呼叫次数计费,这个呼叫次数息息相关的是借贷使用者数量。
而央行内收录的大部分信贷记录使用者都是属于银行等相对高质量使用者群体,这些群体都有可能下沉到非银系的互联网金融中发生贷款行为,同时不在央行体系的信贷使用者,都是互联网消费金融机构的潜在客户。
通过央行查询量,可以侧面知道在银行体系信贷需求的使用者数量,这部分使用者80%以上是无法获取银行体系的贷款的,因此理论上是可以成为消费金融机构的潜在客群。
2015年的6.3亿次查询到2018的17.6亿次查询,说明需要信贷的使用者非常多,但这么大的查询量,有信贷记录人数才增加了1亿,说明大部分使用者都无法获得贷款或者非常需要贷款,会同时在多个机构申请贷款,才会每人产生近10次的查询次数。
六、处于消费金融产业链什么位置
已知大资料风控机构在消费金融场景中是非常有前景的,我们了解下其在消费金融产业链中的角色及功能,消费金融产业链的角色包括:

除了消费者外,产业链中的各个角色都有附加风控及征信机构角色的可能,对外输出大资料风控能力。
七、个贷风控场景及解决方案
猎人将消费金融大资料风控场景分为5个环节6个应用场景:5个环节包括反欺诈、身份核验、贷前稽核、贷中监控及贷后催收;6个应用场景分别对应不同的环节。
反欺诈环节:
对申请借贷的使用者群体进行反欺诈识别,识别能力主要依赖于风险名单,高危名单(在逃、黄赌毒、涉案)、法院失信被执行人等名单,另外还有虚拟手机号、风险IP、风险地区等名单,通过名单进行反欺诈识别。

再深入点,可以在使用者使用的装置端进行反欺诈识别,检视是否是风险装置;还可以通过群体关联,找出是否团伙欺诈行为。例如申请集中在一个IP地址,一个户籍地,通讯录都有同一个人联络方式等。
身份核验环节:
进行借贷同行业身份核验。在反欺诈识别过程中,无风险使用者来到身份核验环节,这里可以通过身份证2要素界面,核验使用者的姓名身份证号是否正真实;通过活体识别判断是否使用者本人在操作;通过运营商核验界面,核验使用者的姓名身份证手机号是否一致,手机号是否本人实名使用;通过银行卡核验,核验使用者的提供的银行卡是否本人,防止贷款成功后,贷款资金到他人账户被冒用。
贷前稽核环节:
授权资讯获取,针对身份核验通过的使用者,进行有感知或无感知的必要资讯获取,为后续模型评分准备好资料。无感知获取的包括多头借贷资料、消费金融画像资料、手机号状态和时长资料等;有感知(需要使用者提供相关账户密码)获取的资料有:运营商报告、社保公积金、职业资讯、学历资讯、央行征信等。
借贷使用者的分层及授信,针对以获取的使用者相关资料,根据不同的演算法模型输出针对使用者申请环节的评分卡、借贷过程的行为评分卡、授信额度模型、资质分层等模型。不同机构对于不同环节的模型评分叫法不一样,目的都是围绕风险识别及使用者资质评估。
贷中监控:
之前环节获取的资料大部分还可以用于贷后监控,监控各项正常指标是否往不良转变,例如本来无多头借贷情况的,申请成功贷款后发现该使用者在别的地方有多笔借贷情况,这时可以将该使用者列为重点关注物件,防止逾期。
贷后催收:
此时需要催收的主要针对失联部分客户,这部分客户在贷款时填写的号码已经不可用,需要通过大资料风控公司通过某些手段获得该客户实名或非实名在用的其他号码,提高催收人员的触达概率。
八、大资料风控常用的资料型别
大资料风控离不开资料,这些资料猎人将主要的7大型别,这7大型别的存在主要有2大原因:
一是这些资料维度基本可以直接或间接体现使用者的还款能力、负债情况、信用情况及其他潜在风险,大部分资料维度都已在金融信贷风控环节得到有效的验证,除了个别场景对于少部分型别资料不太合适外。
二是这些资料都经过标准化的处理,且在其体系内与合作的借贷机构客群最低的交叉比例超过40%以上,也就是借贷机构的100个使用者中可以在这个资料界面中查到其中40人及以上的资料。

还有一些原因是这些资料来源的更新频率足够满足风控公司的要求,特别是高风险名单这些要求是实时的,而身份证要素这些则无需更新实时问题也不大。
资料型别主要有:
大资料风控需要的资料型别这么多,那来源是哪里,或者说这些资料掌握在哪些机构中?

其实以上源头直接从事资料输出业务的只是一小部分,原因是大部分源头公司对资料合规输出及场景管理无专门部分负责,而且资料业务盈利不是其主要的业务。
因此活跃在大资料风控行业,提供资料业务的是一些通过相关关系获得代理权的资料代理商,及为这些源头公司提供系统服务的系统商。
十、人工规则及机器模型
大资料风控的实现方式是传统风控的专家经验模型、及现今依赖演算法模型两种方式结合较多。原因是演算法模型在大多数常规情况是可以准确识别风险情况,但少部分特殊情况需要人工参与干涉修正及调优的。
专家经验模型的流程是将遇到的新问题(新申请使用者的资料)作为入参,风控专家根据历史出现的情况(不同客群的好坏表现)归纳起来,从中找出相关规律(A客群对应好的,B客群对应坏的,C客群没遇到过,但可能是好的等),从而判断新问题可能发展的路径情况(新客户贷后是好的或者坏的)。

演算法模型,主要依赖统计学公式,流程是将新资料(新申请使用者的资料)作为入参,演算法模型(随机森林、决策树、逻辑回归等)在大量的历史客户样本喂养后,已经可以区分出不同客群的好坏表现,从中而判断新使用者在模型结果中对应的是好还是坏客户分类。这其中会引入第三方的资料来源(KS 、IV、AUC等都是判断第三方资料有效性的指标),看哪些资料能够提升演算法模型的识别准确率。
其实从流程看出,演算法模型无非把人工经验环节换成了演算法模型替代,以此实现批量找出能够判断好坏客户的规律,并将其标准化。但遇到一些不在历史资料中的情况时,演算法模型就可能无效,需要人工参与调优,为了解决新问题演算法模型表现不太好的情况,现在有机构尝试用新的演算法或逻辑去模仿人工调优这个工作。
十一、大资料风控的产品形态
大资料风控行业中最常见的产品形态有4种:
API界面及SDK一般是有风控模型团队机构需求较大,需要详细字段入参来喂养模型;部分无模型团队的机构,但有技术部门支援开发的,一般喜欢直接采用API的评分或H5报告;而机器模型及决策引擎主要是有钱但不熟悉风控行业或者现有技术团队不熟悉大资料风控的,会直接购买模型及决策引擎直接启动信贷业务。

以上的产品形态主要还是针对B端客户,有些大资料风控机构开拓C端业务的推出APP内建报告的产品形态。
最后
大资料风控是个很复杂的体系,其在个贷风控领域的应用已相对成熟,这个场景的竞争现处于白热化阶段,已知这个细分市场的风控产品的创新已经到了一个瓶颈,无论机构大小只能围绕资料覆盖率及风控识别能力两个维度进行优化。
同时由于有消费金融需求的个体基本都得到了刚好甚至超出其还款能力的信贷服务,因此开拓新客群的获客成本明显高于前两年,这是大多金融机构合规产品获利能力无法覆盖的,规模维稳甚至紧缩的情况导致提供个人风控的大资料风控机构的收入水平其实在下降。
另一个状况是针对小微企业端的风控服务重新被大资料风控机构重视并逐渐加大研发力度,望在小微企业风控的白热化到来前,先占据一定的市场规模,形成有力的壁垒活下去。
#专栏作家#
大资料猎人,微信公众号:date-hunter,人人都是产品经理专栏作家。多年金融行业(基金、理财、保险、信贷等行业)相关战略研究、行业分析、商业模式搭建经验,熟悉金融+大资料+风控+营销领域。
题图来自 Unsplash,基于 CC0 协议





























