当前位置: 头条体育 > 国内 > 正文

宋晓冬:未来十年,隐私安全计算将变成数据计算的基础设施

时间:2021-11-18

全球数据经济暴涨的当下,构建一个负责任的数据经济框架关乎每一个人的安全。然而,什么是负责任的数据经济?它的目标和原则是什么?在构建数据经济框架前,我们该以何种方式对数据进行确权和保管?

11月10日,加州大学伯克利分校电子工程和计算机学系教授、Oasis Labs创始人宋晓冬在翼方健数举办的“Data X大会暨翼方健数战略发布会”上提出上述问题。

这是一个数据安全和数据经济大讨论的时代。翼方健数在围绕数据要素市场建设、行业数据价值输出、数据开发应用生态以及隐私安全计算的技术进步等话题,邀请了宋晓冬、商汤科技创始人兼CEO、创新工场董事长兼首席执行官李 开复等数百位数据科技业界领先人物参与讨论。

宋晓冬认为,当下最刻不容缓的事情是,构建一个负责任的数据经济框架,这样才能不断激发数据的潜在价值。

她非常看重未来十年对数据经济的探索,“2020这个时代会是建立负责任数据经济的重要十年。”她说。

技术欠缺阻碍数据价值发挥

如何用隐私数据安全技术激发数据的价值,是宋晓冬一直探讨的课题。在她看来,作为数字和智能时代最重要的生产要素,数据已经成为现代经济的关键驱动力。

她用一组数字佐证她的观点,全球现在每天产生2.5万亿字节的数据,这个庞大数字的背后,意味着不可估量的价值。据推测,2020年全球数据经济产值估计已达到3万亿美元;而欧盟公司的估测显示,2020年个人数据产生的价值已占欧洲GDP总量的8。

然而,在宋晓冬看来,当下时代里个人对自身数据的使用权已经失去控制。很多个人数据在本人不知道的情况下被第三方买卖,例如美国加利福尼亚州机动车辆管理局(DMV)曾被查出违法销售驾驶员个人信息,每年获利达5000万美元。

也有第三方买卖数据时号称数据是在已经被匿名化前提下进行的。但是研究表明,数据匿名化并不能充分保护用户的隐私信息。

《纽约时报》做过一个研究,他们从匿名手机位置数据中,追踪到保卫前总统特勤局特工的位置,从而获知特朗普的位置。

隐私数据保护不足除了对个人造成安全威胁,对企业来讲,也同样被大规模数据攻击所困扰,攻击者已经很多次成功从企业获取上亿甚至几十亿用户的敏感信息。

庞大的数据与真正的数据价值实现之间,确实存在着不小的鸿沟。宋晓冬称,根据数据的特性,传统的技术解决方案存在很多不足。

传统的技术解决方案主要是对数据在静止或传输中进行加密,所以只能在数据静止或传输中进行保护,这种情况下,数据要么还没有被使用,要么已经被复制。而数据在复制之后就很难再被控制,被复制的数据在以后怎样被使用,我们不得而知。

“所以今天我们面临的如何更好使用数据的最大的挑战,是怎么在使用数据的同时又能对用户隐私进行保护,而且能负责任的使用数据。”宋晓冬说,这些挑战如果不解决,问题会变得越来越严峻,未来甚至会阻碍社会进步,乃至破坏人类基本权利和价值。

上述多重隐私数据安全问题不仅困扰个人和企业,也对数据安全技术公司提出了挑战。今天,如宋晓冬所述的蕴含巨大经济价值的数据,大都因为缺乏保障隐私数据的解决方案,而被锁在数据库中不能被利用,更难谈发挥其应有的数据价值。针对这个问题,作为数据安全技术公司,翼方健数认为,在“解锁数据价值”技术路径的实现上,隐私计算仅是必要不充分条件,而翼方健数所做的,就是将条件补足充分,提供了数据的全生命周期服务。翼方健数不仅仅局限于某一单个技术,而是专注于解决数据流通全流程的问题,以满足行业实现可量化、可分配的数据价值。

构建负责任的数据经济框架刻不容缓

宋晓冬提出,我们应该尽快构建一个负责任的数据经济框架。

什么是负责任的数据经济?负责任数据经济的目标和原则是什么?在她看来,这首先应考虑到个人的数据权益保护。

“数据权益是数据经济的基石,需要先建立数据权益,我们才能防止数据的滥用和误用。”她说。除了建立数据权益保护机制,我们还需要公平地分配数据产生的价值,使用户能够从自身数据当中获得更好的收益。最重要的一点,我们需要能够更有效地使用数据,来实现社会福利和经济效益最大化。

但是数据有很多独特的特性,数据的这些独特特性对建立负责任的数据经济提出了很大的挑战。例如,数据的使用和数据隐私之间是天然对立的。我们希望从数据当中得到很多信息、获得更多的价值,但我们也希望在数据使用过程中能够确保用户的隐私安全。此外,数据自身还有其他的特性,包括关联性、外部性等等。

所以要建立一个负责任的数据经济框架,原有的数据隐私保护框架并不能满足,“我们需要提出一个新的解决方案。”

宋晓冬提出的“负责任的数据经济框架”有三个部分,即技术解决方案、更好的法律框架及激励模式。

其中技术解决方案即针对上述提到的传统技术的不足之处,即怎样对使用过程中的数据进行保护。她认为主要有两点,第一我们需要能够控制数据的使用,包括数据可用不可见;第二我们需要保护计算的结果输出不泄露敏感信息,而且保证数据使用的合规性。

在新的技术领域下,有几大方面用来帮助共同解决技术方面的问题。包括安全计算,它包括使用安全硬件和密码学支持的方案来确保数据在计算过程中没有数据信息的泄露;差分隐私,可以用来确保数据的输出结果不会泄露个人的敏感信息;联邦学习,可以帮助数据在不离开数据所有者的机器的前提下,运用分布式方法进行模型训练。

“简单提一下安全计算技术,安全计算的目的是为了保证在数据计算过程中,不泄露数据敏感信息。在这里主要有两种方法,一种是使用可信硬件,一种是使用密码学包括安全多方计算、同态加密等等。它不需要依赖于硬件支持,但是在信任上会有很大损耗,通常会是上百倍上千倍甚至更多。”

最近几年对运用同态加密和多方安全计算有很多研究,但是从性能来讲这些方法还是不足以支持很多实际当中的应用,包括在很多应用场景下,应用这些方法来做机器模型训练需要花很多年时间。

另一种做安全计算的方法是使用可信硬件,它的好处是性能非常好,可以支持通用计算。近年来不少硬件厂商也研发了他们自己的可信硬件的产品。比如2014年由ARM公司提出的一套基于嵌入式设备的硬件隔离技术,其后Intel、NVIDIA等也都分别研发了自己的产品。伯克利大学也研发了一个开源的安全硬件,Keystone,它是一个开放框架、可定制的可信执行环境,其实验结果表明,在Keystone环境下进行继续学习跟native computation(原生计算)相差很小。

隐私安全计算现在距大规模落地还有很大的差距,目前除了翼方健数等少数一线数据安全计算公司,全球能真正实现应用场景落地的少之又少。但对于未来十年,宋晓冬认为很多隐私安全计算的技术会继续发展,可能将变成数据计算的基础设施。甚至在未来十年里,大多数芯片也将具有secure enclave(安全执行环境)的功能,大多数计算机也将使用secure enclave。

未来十年是构建负责任数据经济的重要十年

负责任的数据经济框架除了技术解决方案之外,也需要有效的法律框架和激励模式的支持。

在法律框架下,什么是数据权?谁来控制数据权?这些最基础的问题如今并没有明确的答案。

来自全球的从业者们也都在探索不同的数据权的概念和框架,比如由埃里克·波斯纳(Eric Posner)和格伦·韦尔(Glen Weyl)提出的“数据即生产力”,个人可以组建工会并以集体的名义对数据的使用进行讨价还价。由记者Rana Foroohar提出的“公共数据银行(或叫数据信托)”则建议数据权由政府监管。其他的还有“标准最低工资制”,保证为用户提供一些基本补偿,以换取有用的数据;“大型科技公司主导制”则建议,由大型科技公司为用户提供管理、下载和删除自己数据的工具。

“总体来讲,我们需要以数据驱动、技术指导的监管法规,比如负责任数据技术的发展将如何影响监管框架?怎样使得监管法规更快、更广泛地推广使用负责任数据技术?”宋晓冬说。此外我们还需要新的既定模式和更好的更公平的方式来分配数据产生的价值。

值得注意的是,宋晓冬及其团队近期提出利用Shapley value(夏普利值)的概念来对机器模型训练当中数据产生的价值进行分配,以求达到更好的效果。

至于未来数据究竟如何得到妥善保管和利用,其称未来我们会看到一种新兴的数据源的使用方法。“数据信托、数据共地将主导各种数据的应用,从而实现所有权经济,用户作为数据所有者和合作伙伴从其数据中受益。”

这也将催生一些被称为“数据监护人”或者“数据受托人”的群体和行业,他们可能将成为数据生态系统中重要的新型实体,可以管理并保护用户的数据并提高其价值。

宋晓冬预测,这些新形式的数据信托、数据共地可能会创造巨大的经济价值,“比当今的数据市场高几个数量级”。

“总体来讲,我们为了数字时代更好的明天,需要建立一个负责任的数据经济,2020这个时代会是建立负责任数据经济的重要十年。”宋晓冬说。

精彩推荐

最新新闻