本报记者 刘颖 张荣旺 北京报道
垃圾短信、骚扰电话、垃圾邮件源源不断、冒名办卡透支欠款、案件事故从天而降、账户钱款不翼而飞……这些都是可能因为信息泄露而造成的安全隐患。
随着《中华人民共和国个人信息保护法》(以下简称《个保法》)在11月正式实施,这些问题将得到解决。与此同时,金融机构的数据共享也将进一步规范。过去一年,隐私计算技术在金融机构之间迅速普及,后者通过深度挖掘脱敏数据,持续完善自身的风控体系与精准营销模型。
“金融机构在业务运营中积累了大量高质量、高价值的数据,但这类数据仅与金融业务相关,而一些金融服务如授信、营销,通常需要更全面的客户画像。因此,金融机构有着与同业机构以及其他行业机构进行联合计算的需求。”马上消费金融股份有限公司(以下简称“马上消费”)副总经理兼首席信息官蒋宁对《中国经营报》记者表示,隐私计算技术的应用既挖掘了数据的潜在价值,又为数据风险控制提供了强有力的支撑。
据北京中关村科金技术有限公司(以下简称“中关村科金”)隐私计算方面的专家透露,国内大型国有银行、股份制商业银行、大数据交易所和地方大数据局等单位非常重视隐私计算技术的应用,自2019年开始相关的招标逐年增多,相关基础设施建设正在逐步完善中。
数据流通需求助推隐私计算发展
所谓隐私计算,主要由多方安全计算、可信执行环境、联邦学习等技术组成,在相关个人数据不流出银行等金融机构端的情况下,由双方提供大量脱敏化、结构化数据,凭借各自的大数据分析能力进一步完善用户画像,从而助力彼此提升信贷风控与精准营销效率。
当前,我国数字经济发展迅速,数据流通成为其中必不可少的关键环节。蒋宁表示,在传统数据流通方式中通常进行明文数据的流通,随着数据的不断传播,数据安全风险也不断提高。数据流通环节中任何一个机构出现数据泄露,都会威胁数据安全。因此,在对数据安全要求较高的金融场景下,密态数据流通无疑是更好的选择,能够更好地控制数据的使用和流通范围,并保障数据安全。
对此,中国信通院云计算与大数据研究所隐私计算研究员贾轩也指出,涉及多方敏感数据的联合建模过程,可以采用隐私计算技术,以“数据可用不可见”实现多方数据安全合作及价值挖掘。以多方安全计算、联邦学习和可信执行环境为代表的隐私计算通过对原始数据加密、去标识化或假名化处理,计算过程及结果只传递经切片、密文等非原始数据,实现了原始数据不出域。因为只传递数据价值,隐私计算实现了数据的持有权和使用权分离,解决了原始数据无限复制、盗用、滥用的问题,保障了原始数据持有权不变且不受损,保障了数据主体的合法权益。同时,结合特定应用场景,经隐私计算技术处理后的流通数据在一定条件下有望实现匿名化,也有助于实现对原始数据的最小化使用。
蒋宁指出,不同技术在实践中常组合使用,在不同应用场景下强化数据安全和隐私保护。其中,多方安全计算可实现在无可信第三方的情况下,多个参与方共同进行一项计算。每一方只能获取自己的计算结果,无法通过计算过程推测出其他任意一方输入的数据。在金融场景下,可应用于联合统计、联合查询、联合建模、联合预测等。联邦学习是实现在各方机器学习原始数据不出库的情况下,通过对数据的加密流通与处理来完成多方机器学习模型训练。联邦学习是在人工智能开发过程中,为了保障用户隐私和数据安全而提出,因此广泛应用于智能化金融服务场景中。可信执行环境是通过在中央处理器中构建一个安全的区域,保证区域内的程序和数据的机密性和完整性。TEE是安全隔离的执行环境,为受信任应用的运行提供了比普通操作系统更高级别的安全保障。
蒋宁指出,由于多方安全计算的技术复杂、开发难度大,因此布局这类技术路线的多为技术型企业,建设以多方安全计算为底座的数据流通基础设施。对于联邦学习,由于当前人工智能产业蓬勃发展,并伴随相关数据安全需求递增,且联邦学习有较多成熟的开源社区,开发难度相对较低,因此众多企业投入研发基于联邦学习的隐私计算产品。对于可信执行环境,由于对硬件的依赖及国外芯片的限制,国内相关产品相对较少,但已有一些企业在国产化硬件上进行了研发投入。
隐私计算如何帮助金融机构了解客户消费行为、消费特征与风控重点?
在中关村科金隐私计算方面的专家看来,一切的关键在于模型。这里的模型主要指机器学习模型或深度学习模型。C端客户申请金融机构的产品或服务时,要签订用户授权协议并提供必要的个人信息。金融机构获取到这部分信息之后,会根据不同的场景,调用营销类模型或风控类模型,根据模型的输出做相关业务决策。
“这里用到的模型,往往无法单纯使用金融机构的自有数据获得,即使能够利用自有数据训练获得,其精度也难以满足业务决策需求。这个模型往往是利用自有数据以及联合建模合作方的数据训练得到的。”该专家指出,隐私计算技术可以帮助金融机构在不知道客户敏感信息的情况下,通过联合建模得到可用的模型,进而支撑业务顺利的开展。
不过,该专家也表示,利用隐私计算技术训练模型会对模型的性能有一定的损伤,但对风控的准确率不产生实质影响。按照中国清算支付协会制定的《多方安全计算金融应用评估规范 》,基于隐私计算训练得到的模型与明文本地训练得到的模型,精度差异不得超过5%,故而模型精度是有保障的。同时,利用模型开展风控是一个较为复杂的过程,可通过其他措施对冲模型精度的差异。
互联互通方面仍存挑战
目前,国内隐私计算处于增长期,在政策、技术、产业方面均有很多进展。
隐私计算技术的普及,很大程度解决了金融机构之间数据交流合规问题,但隐私计算技术在安全、性能、互联互通等方面仍存在不小挑战。
中关村科金隐私计算方面的专家表示,绝对安全并不存在,但在合理的通信带宽和算力投入的前提下,基于多方安全计算协议和密码学算法的隐私计算在B端企业联合建模这一场景是安全的。目前,国内由信通院牵头成立的隐私计算联盟,以及金融行业的国家金融科技测评中心(银行卡检测中心,BCTC)、中国金融认证中心(CFCA)等机构均可对隐私计算产品开展安全测评,对产品的安全性进行评判。目前,中关村科金自研的隐私计算平台正在进行(CFCA)多方安全计算金融应用产品测评,通过在安全性、标准化、合规化等多个层面经过严格检验,满足金融场景下数据共享和数据合作的需求,在保护数据安全与隐私前提下,更高效地赋能金融场景,促进数据价值释放。
性能方面,上述专家表示,由于多方安全计算协议的引入和新型密码学算法的使用,产生了大量额外的通信、存储和加解密计算需求,性能目前仍然是限制隐私计算广泛应用的重要因素。优化加解密算法的效率、降低通信开销等仍然是目前隐私计算技术研究的热点。
“互联互通可能是隐私计算广泛应用的最大瓶颈。”中关村科金隐私计算专家指出,以联邦学习而言,国内存在着多种技术框架实现的产品,这些产品虽然底层密码学算法原理一致,但实质上是无法互联互通的。已经有股份制银行联合金融科技企业,开展互联互通合作;行业内相关标准化工作正在进展中,相信互联互通问题会逐步得到解决。
具体到联邦学习领域,索信达控股(3680.HK)AI创新中心数据科学家邵俊表示,联邦学习的应用落地面临几大挑战:一是激励机制如何设计。联邦系统由多家机构共同协作完成,要在各方利益都得到满足的时候才具有可行性。二是隐私保护的问题。即传输模型的中间数据若遭泄露,原始数据仍有被推导出来的风险。三是联邦学习的参与方中,可能存在不诚实参与方的恶意攻击。
此外,邵俊指出,联邦学习还有一些其他比如数据传输效率的问题。模型训练会涉及到大量的运算,那么各方联合建模就会涉及到大量的数据进行交互的问题。比如像在梯度下降的时候,每一步的梯度迭代都会涉及到通信成本。所以,通信效率这块也是联邦学习在落地过程中会遇到的挑战。此外,还有像机构与机构之间样本分布不均衡的问题等等。
“目前,索信达控股正在研究多方安全计算,我们将多方安全计算问题和联邦学习场景相结合,这在联邦学习未来也是一个非常有前景的研究方向。”邵俊表示。