学术观点 -> 论坛成员
大数据如何共享?
作者:黄益平    发布:2022-09-02    阅读:9897次   


北大国发院 2022-08-30 19:30 发表于北京

题记:2021年上半年,北京大学国家发展研究院建立了一个包括近20位教授的《平台经济创新与治理》课题组,对平台经济问题做了全面分析,课题报告《平台经济:创新、治理与繁荣》已于2022年7月由中信出版社出版。为更好地分享对于平台经济的见解,特别是对一些最新发展的看法,课题组决定与中新经纬合作,推出系列评论文章《承泽观察·平台经济40评》。本文为北大国发院副院长、数字金融研究中心主任黄益平的文章。

2022年4月,我在博鳌亚洲论坛期间主持了一场关于数字经济的讨论,在会上博鳌亚洲论坛副理事长、中方首席代表,中国金融学会会长周小川提出用安全算法手段克服国际间数据难以完全自由流动的矛盾,借用他的话,可以理解为“数据不出境,但分析结果可以出境”。这个思路对我有很大的启示,当前欧美国家正积极推动国际数字贸易规则的制订,提出了数据跨境自由流动的主张,但这对包括中国在内的其它一些国家来说构成了挑战。如果基于国家安全等考虑做不到数据自由流动,就可能会对这些国家参与国际数字贸易形成制约。周小川的思路为化解这个矛盾提供了一个解决方案,就是用分析结果的流动替代原始数据的流动。这个思路也打开了我对国内大数据共享问题的思考空间。

“数据是数字经济时代的石油”,现实中大数据应用的成功案例已经非常多,包括产品的精准营销、服务的个性化方案以及信用风险的有效评估等。大数据分析可以帮助提高经济效率,改善用户体验,扩大经营规模,促进经济与社会的创新与发展。大数据已经成为当前经济中十分重要的生产要素。到目前为止,大数据多是在大科技平台上产生的,因而大科技公司是大数据分析的主要实践者。

如果大数据可以共享,大数据分析的红利就会更大。可能就是出于这个考虑,最近几年政府在一些领域推动数据共享。设立几家大数据征信公司的目的,应该就是为了让更多的商业银行利用大数据信用风险评估的手段。不过,作为特殊的生产要素,并非所有的大数据都是可以拿出来共享的。在这个前提下如何达成数据共享的效果,确实需要做创新性的思考。

讨论数据共享,首先要面对数据权属的问题,即数据归谁所有?传统生产要素如资本和土地的有效利用都是基于一个前提,就是清晰地界定产权。但这个做法很难简单地套用到大数据,直接的原因是一些大数据的权属很难被清晰地界定。比如用户在平台上点外卖、看短视频的数据,既包含个人的一些信息,但同时也有平台支持的线上活动。显然,在这个实例中,要在用户和平台之间划清楚数据的所有权界线,难度非常大。一个合理的解决方案是涉及个人特性的数据归个人所有,用户在平台上活动留下的数字足迹可以归个人和平台共同拥有,与个人基本上没有关系的数据则可以归平台所有。

在现实生活中,数据确权还面临一个挑战,就是要在权益保护与使用效率之间取得一个平衡。中国和欧盟的实践提供了两个对应的典型案例。过去中国缺乏有效的数据治理政策,既没有确权,保护也不足。这样,一方面,利用大数据分析的创新活动十分活跃,但另一方面,各种违规、违法的行为也十分普遍。因此,最近几年政府采取了许多措施,加大数据保护的力度。欧盟在数据保护方面一直做得比较早、也比较好,美中不足是由于限制比较多,基于大数据分析的经济创新相对不活跃。因此,数据治理特别是确权需要秉承一个原则,就是既要保护权益,也要支持创新。对数据确权要特别重视平台的贡献和权益。

讨论数据共享还要面对适合性的问题,什么数据可以共享、什么数据不能共享?从原则上说,起码有三类数据不能共享:一是个人隐私,二是商业机密,三是国家安全。个人的姓名、年龄、性别、教育水平、家庭住址、联系方式等均属于个人隐私,应该明确归属于个人所有,当然也不能轻易分享。业内常见的做法是对行为与交易数据做脱敏处理,分析师无法追溯到具体的个人或者人群。同样,如果事关商业机密和国家安全,数据也不能随便披露。就这些大的原则达成共识并不难,难的是在执行过程中如何把握。以国家安全为例,如果范围划得宽泛一些,那也许可以认定绝大部分数据都有一定的敏感性,即便像公众打车、叫外卖甚至看短视频这样的数据,也不排除能分析出一些人群行为方式的变化。所以,如何恰当地把握这个度,同样是一个极大的考验。如果标准设定得不够严格,可能会造成不少隐患。但如果标准卡得太严,大数据分析也就无从做起。

讨论数据共享,最后需要回答的问题是,如何共享?大数据其实有非常适合共享的特点,就是可以无限制地复制。这是数据要素与传统生产要素的一个根本差别,无论是资本还是土地,如果已经有一家企业在使用,别的企业就无法同时使用。但大数据不一样,如果需要,一套数据可以供无数家企业同时使用,或许这也正是大数据分析能够产生超常回报的原因。但这个优点也会引发一个缺点,就是数据的拥有者如何保证购买者不会复制数据给其他人使用,如果不能保证,那么拥有者也就只能出售一次,大数据共享所产生的回报很难完全内部化。这样,拥有者就很难有足够的激励和资源去从事费时费力的搜集、清理和分析工作。大数据若没了生产,共享也就无从谈起。

在现实生活中已经有公共数据共享的实例。所谓公共数据,主要是指由公共部门积累的大量静态数据,典型的例子是税收、社保、司法甚至水电等数据。这些数据已经形成,也不需要相关部门再做额外的投入。目前一些地区通过建立地方性的数据平台,整合已有的公共数据,支持商业银行的信用风险评估,为中小企业提供贷款,取得了不错的效果。广东省、浙江省、苏州市和淄博市等尝试建立的平台形态不同,主导机构也不一样,甚至覆盖的数据也有很大的差别,但这些实践有一个共同的地方,就是向商业银行共享公共数据,支持普惠金融业务。

特别需要指出的是,即便是这类共享公共数据的平台,其实也没有共享原始数据。平台的功能只是提供一个接口,让获得授权的银行算法工具进入不同的公共数据库进行运算,获得结果。换句话说,这些金融信息服务平台所做的,实质上就是周小川所提出的思路,“原始数据不出系统,但分析结果可以出系统”。“公共数据”不能出系统,有权益的考虑,也有安全的考虑。但这个理由对于大科技平台上的大数据则更加突出。因为大多数公共数据是静态的,什么时候交过多少税、交过多少水电费,在系统内使用,还是在系统外使用,差异不大。但大数据是动态的,如果分割之后离开系统,可能就很难产生同样的大数据分析功效。

最近有一种观点,既然大数据是一种新的生产要素,既重要、又敏感,因此最好能由政府部门或者国有企业掌握。这种想法有一定的合理性,因为在现实中,民营企业在数据处理方面的不合规、不合法行为确实非常多。当然,几乎所有的大科技公司都是民营企业,这也是事实。但解决合规合法问题的有效途径是加强监管,而不是把数据集中到国有部门。数据如何才能集中到国有部门,这个技术问题就不好解决。即便能,国有部门行为的合规性比较高,但创新性却普遍比较低,这样大数据分析的活力也就丧失了。最佳甚至唯一的解决方案是加强对民营大科技公司的监管,事实上,最近两年,数据保护的法律、制度频频出台,大科技公司的数据保护意识已经大大加强。即便学者从事学术研究,获取数据的难度也明显提高了。

总之,千万不要套用传统生产要素的管理方法去管理数据生产要素。无论是确权,还是共享,都需要适应数据特性的思路,根本目的是在保护相关方权益和发挥大数据效用之间取得平衡。大数据共享是一个值得向往和努力的方向,但在实施中要避免简单粗暴的做法,尤其不能只是把数据分享给大家。事实上很多原始数据是不能拿出来的,这其中有个人隐私、商业机密和国家安全等方面的考虑,也是因为数据复制的成本非常低,更重要的是很多数据一旦离开其原生的平台系统,其价值就会大打折扣甚至变得一分不值。所以,推动共享的合理做法是建立数据共享平台,需要使用大数据的机构可以通过平台提供的接入口,利用大科技平台的原始数据进行运算,然后输出结果,即“原始数据不出系统,运算结果出系统”。这就是我从周小川在博鳌亚洲论坛提出的思路获得的启示。

本文来源:中新经纬