安全多方计算(Secure Multiparty Computation,简称SMC)是一类新型的隐私保护技术,它可以在多个数据拥有者(Parties)之间安全、可靠地进行计算,同时保护其中包含保密信息的完整性和机密性。它的目的是满足任意类型的计算需求,包括检索,基于规则的分类,预测以及全局性分析,实现在原始数据集中安全地进行计算,而不需要中间机制(例如,授权传输临时文件)来协调它们之间的操作。
安全多方计算主要原理是基于密码学和不可知性,它主要使用以下技术:加密技术,不可知性技术,秘密共享,分布式算法等。它不需要将数据加密,而是利用不可知性和密码学原理,使不同的方在协商之后互不可见地进行计算,以保证隐私,从而实现对来自多个方的敏感数据进行有效而可靠的分析计算,从而提供机密性能和完整性保护,而不会暴露某种形式的局部数据访问。
为了保护数据和计算结果的安全性,应该对所有参与者和参与计算的方进行认证。参与方需要认证,以确保数据参与者具有该数据,以及可以信任参与计算。此外,在进行安全多方计算时,应使用可信硬件用于密码学分布式计算,可以改善计算的安全性和性能。
安全多方计算可以嵌入到分布式计算环境中,添加额外的安全性和网络隔离功能,保护参与者免受潜在的攻击等,并有效地防止安全事件的发生,减少云服务提供者的安全风险,更好地保护数据的机密性。安全多方计算技术使数据所有者可以在多个网络节点之间联合起来,不受其MapReduce等传统分布式技术的限制,使实时数据分析成为可能。
安全多方计算为个人隐私保护、防护新科技、保护数据完整性等提供了可靠的技术。通过这种技术,不同方在不可知的情况下可以安全的参与计算。安全多方计算技术可以实现对数据的有效分析,减少客户的隐私泄露风险,推广接受非信任协议,加强支持系统的安全性以及对不可信节点的访问控制等,广泛用于电子商务、金融、医疗、政府部门等安全环境中,以确保数据和计算安全。
数据作为新一代生产要素,蕴含的巨大价值得到逐步释放。但数据隐私及安全问题却日益凸显,用户数据隐私如何保护的问题亟待解决。隐私计算被视为解决此问题的“关键之钥”,与之相关的多方计算、可信计算、联邦学习已在众多领域被探讨。这些概念究竟有何不同指代?又是如何实现数据的“可用但不可见”?本文为你全解析!
“允许开启当前定位”
“需要访问您的照片”
“同步通讯簿联系人”……
“是”或者“否”
面对这些选项,人们如何做出的决策,不得而知。
但在互联网时代,这些提示并未引起警觉,数据泄露事件仍屡屡发生。事实上,从提供服务的平台到使用服务的个人,似乎都已默认:享受免费服务,就应该提供数据。
但数据蛮荒时代,在隐私意识觉醒后终将了结;
信息技术带来的隐私问题,也终将交给新技术去解决。
隐私计算为信息隐私保护提供了重要的理论基础。这个概念虽然诞生时间不长,但其理论研究却有着相当的一段历史,并伴随着密码学各项基础理论的发展开始生根发芽。
根据中国信息通信研究院的定义,隐私计算是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术。
广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流转的全生命周期,完成计算任务,使得数据在各个环节中“可用但不可见”。
说的更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放更大的数据价值,提升生产效率,推进产业创新。
也正因此,隐私计算与区块链的结合,满足了更复杂多变的商业需求,特别是面向数据存证/确权/共享/交易的各类场景,实现从信息互联网到价值互联网的转变。
由于隐私计算中所包含的技术多样性,不同的企业或者项目根据技术优势,会采用不同的技术路线来实现其应用目的。基于密码学的技术应用便是其中一类。
安全多方计算、同态加密、零知识证明等技术都是属于这一范畴。其核心思想是设计特殊的加密算法和协议,从而支持在加密数据之上(即不接触数据明文内容)直接进行计算,得到所需的计算结果。
我们曾经从百万富翁问题出发,详细地介绍过安全多方计算(MPC)如何实现参与各方在原始数据保留在各自本地的情况下,完成数据的协同分析,并产生正确的结果。
本质上,安全多方计算主要基于密码学的一类重要隐私计算技术,包括同态加密(Homomorpgic Encryption),不经意传输(Oblivious Transfer),混淆电路(Garbled Circuit),秘密共享(Secret Sharing)等。目前,MPC已形成清晰的安全模型,具备可商用的技术基础。
隐私计算的第二条路径,便是基于可信执行环境技术(Trusted Execution Environment)的可信计算,以Intel的SGX,AMD的SEV,ARM的Trust Zone等技术作为代表。
其核心思想是以可信硬件为载体,提供硬件级强安全隔离和通用计算环境,在完善的密码服务加持下形成“密室”,数据仅在“密室”内才进行解密并计算,除此之外任何其他方法都无法接触到数据明文内容。数据在离开“密室”之前又会被自动加密,从而实现“可用不可见”。
在更大的可信计算领域中,可信计算基础(TCB)包含提供安全环境的计算系统中的所有内容,包括操作系统及其标准安全机制、计算机硬件、物理位置、网络资源和规定的程序。
例如,医疗设施的可信计算基础通常具有安全机制,对其临床信息数据库实施访问控制和用户身份验证。在这里,安全机制将确保用于研究的任何记录不会保留足够的剩余信息以供识别个别患者。通信安全协议通常会管理在网络传输过程中对数据的访问,而备份等可用性控制将确保记录在发生盗窃或自然灾害时得到保护。
隐私计算发展的另外一个重要技术方向是联邦学习。
联邦学习本质上是一种分布式机器学习技术,或机器学习框架,其目标是在保证数据隐私安全及合法合规的基础上,进行数据联合训练,建立共享的机器学习模型。
2017年,谷歌的研究人员发表了一篇关于一项新技术的论文,他们希望这项新技术可以改善安卓手机上的数字键盘Gboard上的搜索建议。这是第一篇关于联邦学习的论文。谷歌AI研究科学家Brendan McMahan和Daniel Ramage这样解释了第一个联邦学习用例:
当Gboard显示建议查询时,您的手机将在本地存储有关当前上下文以及您是否单击了建议的信息。联邦学习设备上历史过程,以改进下一个迭代的Gboard查询建议模型。
换句话说,通过边缘计算和机器学习的结合,联邦学习提供了一种无需在中央数据库中跟踪用户每一步移动就能不断改进全局查询建议模型的方法。它让谷歌简化了它的数据收集过程——考虑到Android操作系统的20多亿活跃用户,这是必不可少的。
随着技术的发展,联邦学习可被分为横向联邦学习与纵向联邦学习。横向联邦学习,即当两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(既用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。如两家不同地区的银行,联合建模以扩充样本集。
然而,我们在训练的算法时,它不像数学平均数那么简单,因为每个机构的数据集在规模、基本人口统计数据和其他因素方面都是不同的。
因此,当两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(既特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法被称之为纵向联邦学习,比如某一地区的银行及电商需要联合建模。
总之,像许多创新一样,隐私问题也随着信息技术的发展而共同发展。未来在隐私性和便利性之间定会达到平衡。从产业角度来看,隐私计算生态已经开始布局,我们下期再约。