【698期】大数据风控“上位”场景化或成核心竞争力
张杰——人人信用管理有限公司技术副总裁,负责主持大数据基础平台建设,评分模型算法研究、产品设计与研发。曾就职于华为中央研究院诺亚方舟实验室,从事机器学习算法研究多年,国内外发表技术论文十余篇,申请发明专利二十余项,作为项目负责人孵化出多项创新项目并转化为产品。 2013年互联网金融兴起伊始,P2P、小贷等非银类金融机构多是作为传统金融的补充,起到毛细血管的作用,让金融的血液覆盖到小微企业主和个人。 起初互联网金融的产品多是线下产品的线上化,与传统产品并没有太多不同,只是额度更低、限制条件更宽松、期限和还款方式更灵活。 在风控环节也没有发展出更贴近互金行业特色的有效手段,仍是延续银行的做法:以央行征信报告为主要数据源,以专家经验或专家规则为评判策略。 同时再加上在内控监管等执行层面上远没有银行做的规范,因此最终导致了“市场先行,风控滞后”的局面,行业总体的逾期率和坏账率远超银行。风控成为影响互联网金融发展的瓶颈。 2015年初,央行释放出了个人征信市场化的信号,一些直接或间接掌握数据源的公司纷纷成立征信子公司。 经过一年多的筛选和验证,“大数据”开始逐渐被互联网金融行业的风控人员所接受,有几类数据被证实可以做为征信报告的有效补充。比如:移动设备信息用于识别身份冒用,黑名单灰名单用于识别多头负债,位置信息用于评估稳定性,页面行为分析用于识别欺诈,消费记录用于评估可支配收入水平,社交关系用于评估信用行为等。 在此阶段,各个征信公司提供的“大数据风控”产品仍停留在较为初级的“数据”层面,信用评分、欺诈评分等深加工产品并未得到金融机构的广泛认可。这时候的“征信公司”实际上是“数据公司”。 数据本质上是一种资源,数据公司间的竞争是资源的竞争。有些数据公司掌控独家、有效的数据资源,坐拥市场。另外一些数据公司虽然利用先发优势,打通了上下游生态链,但却很容易被上游数据源绕过,生存状态岌岌可危。 新兴市场往往都会遵从一定的市场竞争规律:最初阶段处于粗矿型的资源竞争状态,然后会转变为精细化的技术水平或管理水平上的竞争。我相信征信市场也会如此,未来的产品竞争应该远不止数据资源的竞争。 大数据除了是一种资源外,在管理上它是一种商业思维的拓展,在技术上它是一种方法论的创新。 在风控建模方法论方面,小数据时代有经过十几年打磨的评分卡建模技术,大数据时代则引入了机器学习技术。前者的代表是FICO;后者的代表是ZestFinance。 前者在可解释性强的线性模型上做到了极致,建模过程中不注重算法本身,而将大部分精力关注在建模的过程管理和数据的预处理等方面,如:响应变量定义、逾期滚动率分析、表现期时间窗选取、格式转换、缺失值处理、分箱选择、变量稳定性分析等。 后者的研究重点在于表达能力更强、准确率更高的非线性模型,如梯度提升树、随机森林、神经网络、张量分解等。让机器代替人工去衍生更多的变量并作出筛选,从而可以利用到更多的弱变量。 前者虽然表达能力有限,且受制于多重共线性的制约,但是现阶段依然是风控建模的主流技术,稍大规模的互联网金融机构更倾向于引入传统金融机构中有评分卡建模经验的专家,然后将大数据的新酒装进过去经过十几年打磨的小数据建模方法论的旧瓶子里。 为什么机器学习领域的非线性模型仍未被风控界广泛采纳?一方面是简单模型带来的可解释性,另一方面是因为所谓的“大数据”中有效的数据类型其实并没有那么“大”,依然在人工可以处理的量级之内。 2016年消费金融爆发,场景的巨大差别导致对风控要求的巨大差别。有些场景几乎重新定义了风控:审批实时性要求高、策略调整及时性要求高,风控成本敏感,场景不同坏账容忍度差别大。 消费金融公司在风控团队的组建和IT系统的开发上都面临着考验,需要更大程度上依赖外部数据源和模型的自动审贷。另外,消费场景下可以一定程度上放松对可解释性的要求,这或许是机器学习算法的一个机会。 这种行业趋势下对征信公司而言,一方面,未做深加工的数据客户不能处理;另一方面,通用评分不能满足其个性化的场景需求。风控场景化的趋势将迫使一部分征信公司回归到征信的技术本源。 我们有理由相信,金融产品虽有很大程度的商业属性,但征信本质上还是技术属性,而且征信技术不会永远停留在浅层的数据层面。 一些关键技术的突破可能加速征信公司市场格局的形成,比如:如何在小样本的监督下,通过迁移学习增强已有模型的场景泛化能力?如何利用知识图谱技术自动的挖掘出欺诈规则,从而提高反欺诈的覆盖度?如何使用区块链技术促进数据源的互联互通? 如何使得已有的基础评分模型具备在线学习能力?如何使用实体链接和属性消歧技术自动化的对多源异构数据做合并?如何从为长尾的小微型金融公司的个性化需求中提炼出共性并形成标准化产品? 现阶段的征信市场也许仍谈不上高深的机器学习技术,数据源的打通、整合仍会持续一段时间,但数据源的差异一定会一步步的抹平,这一阶段的持续时长仍难以预期,可能三五年,也可能更快。 届时,金融机构、征信公司、数据公司这三类公司的界线可能会变得清晰,也可能变得模糊,但场景化的风控技术经验必将会成为征信公司的核心竞争力。 人人信在过去一年多的时间里,专注于将大数据技术应用于互联网金融领域。在大数据的镁光灯下趟过了一些暗坑,其中主要的几点经验总结如下: 1、大数据不单是数据大,需要综合运用结构化和非结构化的数据管理技术,将其匹配、关联、消歧后加以利用,基础工作需做扎实。数据仓库技术已不再适用,云计算技术不能仅仅当做存储。 2、随着新增数据源不断加入,数据的维度不断扩展。如何将多维数据有效的加以运用,使得信用评分越来越准确?如何依据数据和场景快速的更新模型?传统金融领域的评分卡建模方法论需要与机器学习技术相互取长补短。 3、引入外部数据源前需做严格的质量评价。我们会在几个不同维度上分别测试,包括:匹配率、稀疏性、有效性、真实性、一致性、稳定性、时效性、安全性、可替代性、鲁棒性。 4、架构演进:分布式技术多种多样,选择技术框架时需根据已有人员的技能积累做取舍,将社区支持程度和可运维性置于技术先进性之前。开源的算法包很多,综合利用避免重复发明轮子,开发框架选取时应考虑到跨语言支持、多协议支持,为以后的架构演进留出足够空间。 人人信目前已经积累起多项核心技术优势,如:百万量级信用数据、亿级实名用户金融属性数据、已落地应用的多个场景风控模型、广泛的外部数据源、强大的技术人才储备。 除了技术之外,未来将以数据 咨询建模的方式提供风控服务,并且在风控之外以“风控 ”的方式提供信用保险和资金对接,为互联网金融机构提供一站式的综合金融服务。 精彩互动 请问人人信百万级信用数据包括什么方面内容?多久更新?来源? 张杰:信用数据是信贷产品的贷后表现数据,每天都在增量式的更新,源于阳光保险集团的互联网金融业务板块 大家都意识到数据是战略资源,而短时间内开放共享的数据市场在缺乏政府推动以及立法情况下很难实现。这导致可用数据的两分格局,互联网公司和传统金融机构。这两大阵营的数据特性差异很大,互联网端的数据金融属性弱,金融机构的数据纬度和时效性不够,在数据不互通的情况下建模,基本上都会出现过拟合问题,模型稳定性也差,尤其对互联网公司而言。 张杰:我们做过依赖央行征信报告的模型,里边是强金融属性的数据;也做过纯粹依赖外部数据的大数据模型。两者从性能上看,还是央行报告的模型性能更好些。但大数据模型的性能指标也没有差太多,从指标的绝对值上看也能达到可用的程度。 过拟合和稳定性问题与多种因素相关,主要依赖于样本量大小和输入因子的数量,训练过程中可以控制。两大阵营数据割裂,这种情况给行业带来不便,也给一些公司带来机遇:对已经拥有足够金融数据的公司来讲,对接第三方的互联网金融数据难度相对低一些。 对已经拥有足够金融数据的公司来讲,对接第三方的互联网金融数据难度相对低一些。————赞同,实际情况下能更有效降低PD。 目前的风控模型是否主要价值在PD层面探索?有效的风控模型要估算PD和LGD。所以需要时间考验。 张杰:是的。违约模型和损失模型都是需要的,对外推广时金融机构对违约模型的需求程度更高一些。 目前阶段数据风控模型的根本,目前大部分新起的数据风控模型玩儿概念居多,少量的基于场景和特殊行业,大部分也是集中在事前的PD层面,LGD要么囿于数据源要么囿于主观推广,都较少被提及。 LGD模型目前的市场环境的成熟度我认为更适合金融机构尝试建立。 张鹏飞:人人信现在的产品和服务主要针对的是互金平台,消费金融类公司?还是应用于阳光内部? 我们2014和2015年主要面向阳光内部,不断的打磨模型产品。2016年开始对外部的P2P、消费金融类公司提供服务。 目前建模业务是在客户现场内部建模还是在线建模,客户对数据敏感性咋解决? 张杰:目前主要有两种方式:1. 对于存量客户不多的机构,可以根据业务场景选择试用我们已有的各类场景模型; 2.对于已经开展业务的机构,我们派技术人员驻场联合建模。 对于第二种情况,还可以细分:如果存量客户不够训练模型,则使用存量数据对已有的基础模型做调整; 如果存量客户数据足够,则可以训练新模型。 就我们之前的经验而言,在纯信贷领域,已有的模型适配性还不错。消费金融领域,依据场景不同需要不同程度的依赖业务专家参与进来做专家评分卡。 两种模式下,进场建模是否类似外包,客户数据实际是拿不出来的。接受在线建模的客户现在多吗? 张杰:我们面对的客户一般都没有非常专业的建模人员,因此在线建模需求不多。绝大多数都是进场联合建模。 如果这样人人信只能积累经验,但没办法积累这些数据吧。 张杰:模型中会用到我们集成的数据。我们为客户提供的是数据+模型的一站式服务。 数据+模型的方式仍不能满足对方时,我们还可以为客户提供信用保险和资金渠道的对接。 这就是我们提出的“风控+”的概念:风控+保险,风控+资金,甚至是风控+获客。在家装等消费金融场景已有落地应用。