铭诚Q/A
一、问:我们银行小,数据少,数据质量差,不足以支撑人工智能技术,定制模型也有困难。铭诚是定制模型吗,如何解决小数据建模难题?
答:铭诚的小银行个性化模型是从铭诚基础模型针对小银行的个体特性优化而成,在理念上高于定制模型,也最大程度地解决了“银行小,数据少,数据质量差,不足以支撑人工智能技术,定制模型有困难”的问题。
首先铭诚基础模型是从1千余万家小微企业随机选择的38.6 万家企业(占~2%)的1百万条真实贷款数据(包括内部和外部数据)训练得来的。这些企业来自全国35个省级地区、2049个县级地区,工业、建筑、批发、餐饮等17个不同行业;所融资金有流动资金贷、个人经营贷等7种不同用途;融资反担保措施有不动产抵押、权利质押和无担保等7种,以及三农等32种国家或地方不同扶持政策及其组合。故基础模型已经涵盖了绝大多数小银行的客户群(地域、行业等),并有一定有代表性。
铭诚基础模型在个体优化过程中采取迁移学习(人工智能中的一种算法),即针对只有小数据的小银行进行知识转移。迁移学习的核心是“运用已有的相关知识来辅助尽快地学习新知识。比如,已经会下中国象棋,就可以类比着来学习国际象棋;已经会编写Java程序,就可以类比着来学习C#;已经学会英语,就可以类比着来学习法语;等等。世间万事万物皆有共性,如何合理地找寻它们之间的相似性,进而利用这个桥梁来帮助学习新知识,是迁移学习的核心问题”(第三方资料)。铭诚利用迁移学习把从人工智能从全国数据学习到小微贷款风控知识,在解决小银行数据少、建模难的问题的同时,根据小银行的情况(小银行的小数据)个性化。值得一提的是迁移学习不是知识的照抄,而是再学习。
在迁移学习之上,铭诚还采取联邦学习(一种人工智能技术)来进一步实现基础模型小银行个性化。联邦学习“可让一组组织或同一组织内的群组以协作和迭代的方式训练和改进共享的全局机器学习模型。”,在解决数据“孤岛化”的同时,保持数据的“安全性”(第三方资料)。即铭诚通过联邦学习把一个银行(银行A)学到的知识转移到其他银行(银行B等)。打个比方,象棋棋手A和B不但各自有定制的教材,还可以在保密绝技的同时,互相交流学习。也即铭诚的个性化小银行模型在理念上高于定制模型。
二、问:我们小银行共享数据有利益方面的考量和风险,铭诚如何保障小银行的数据利益?
答:“目前国内外监管环境逐步加强数据保护,陆续出台相关政策,如欧盟最近引入 的新法案《通用数据保护条例》(GDPR),我国国家互联网信息办公室起草的《数据安全管理办法(征求意见稿)》,因此数据在安全合规的前提下自由流动是大势所趋。在用户和企业角度下,商业公司所拥有的数据往往有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交换,往往这些机构不会提供各自数据与其他公司做与单的聚合,导致即使在同一个公司内,数据也以孤岛形式出现”,“基于以上不允许粗暴交换、不愿意贡献价值等,联邦学习技术应运而生”(第三方资料)。目前联邦学习在各行各业包括银行业都有应用,数据私密保护和信息分享的有效性都得到了验证。
首先,铭诚建模不采用c1-c3类个人信息,符合《数据安全管理办法(征求意见稿)》。其次,铭诚采用联邦学习技术(见问答一),模型个性化时,数据经过特殊处理提取信息,做到数据不交流,只是最小程度地交流模型所需的信息(可用不可见)。第三,铭诚用非对称加密(RSA)交流信息,RSA是目前最为安全的加密协议,在各行业包括银行业被广泛应用。铭诚三管齐下,充分保障小银行的数据利益和最大程度降低小银行数据风险。
三、问:小银行缺乏判断企业还款能力判断的数据,银企信息不对称是根本问题,铭诚如何解决?
答:铭诚利用大数据、机器学习和人工智能舒缓小银行银企信息不对称难题,主要是以下三个方面:
可替代信息:一个数据(如企业规模)缺失带来的信息(如一项还款能力)缺失,铭诚专利技术可以从其他参数(如雇员人数、从事的行业/地域、商户的交易量等)萃取出可替代信息;2. 历史风险分析:一些缺失的关于企业还款能力的信息还可以从过去该企业所从事的行业、所在的地域、借款的目的、借款的数目等参数中曾经发生过的违约贷款历史来萃取得到;3. 行为分析:一个企业的还款能力还可以从其雇员人数、用水、用电、商户的交易量等的变化萃取出相关信息。
铭诚神经网络技术和联邦学习技术进一步整合上述三方面弥补的信息来拮抗“小银行缺乏判断企业还款能力判断的数据”的银企不对称难题。
我们的实验(如图)证明了铭诚技术在“解决银企不对称,缺乏判断企业还款能力判断的数据”的优良能力。
四、问: 铭诚有没有一个大的建模团队?
答:铭诚有一个强大的建模团队。
建模是一个复杂的过程,可以拆分为数据清洗、信息萃取、模型思路总设计、模型设计、编码、模型接口和商业部署等大步骤。在人工智能大公司,建模常由一个团队而非几个技术人员来完成,主要原因是公司通过让技术人员专攻一项或几项而不是大多数步骤,来有效防止竞争对手了解技术机密,但并非没有例外或者几个技术人员不能完成建模。
铭诚的核心技术团队共有五名曾在著名人工智能公司从事建模第一线工作的高级技术人员,掌握金融建模全过程技术,在中国有多项发明专利(五项已在审查中),覆盖金融数据清洗、信息萃取、和模型的训练、测试和部署的各个方面,实力不弱中国很多大的人工智能金融科技公司。最重要的是铭诚产品已经成熟,可以演示(见本站)。
五、问:我们小银行没有强大的技术部门,模型个性化和部署时怎么办?个性化和部署时候需要行里提供什么?
答:铭诚的模型采用模块化方式,个性化和部署都较简单。模型个性化在行内进行,数据没有外泄的可能。模型部署采取行内和云服务两种形式。行内部署服务器采用银行自有的服务器,由铭诚技术员协助部署。云服务部署,行方只需要对实人认证服务端API接口发送POST请求即可。铭诚的云服务器曾为银行/担保基金服务多年,安全性被证明有保障。模型在个性化和部署时,除了需要小银行配合提供个性化的数据外,铭诚需要一台GPU电脑(价格约1-2万人民币)。该电脑可由行方提供和管理,由铭诚建模人员在行内使用。如果银行要求,铭诚也可以提供GPU电脑,在模型个性化和部署时,该电脑交由行方管理,由铭诚建模人员在行内使用。
|