隐私计算简史:数字时代的隐私权保护
“隐私权”理论来源于由塞缪尔·沃伦(Samuel Warren)和路易斯·布兰代斯(Louis Brandeis)在1890年合作发表在《哈佛法律评论》上的同名文章[1]。文章作者沃伦就是隐私权被侵犯的受害者。那时电话、电报、便携式照相机、录音设备这些新技术发明,给新闻记者提供了更强大的音视频采集和信息传送工具,沃伦夫妇及其家庭成员经常成为各大报纸八卦专栏的主角,他对此痛苦不堪[2]。于是沃伦找到布兰代斯,开始了《隐私权》文章的撰写,这篇文章中明确指出“即时照片和报业已经入侵了私人和家庭生活的神圣领域”,并试图“考虑现行法律是否提供了一项可以适当援引来保护个人隐私的原则”。《隐私权》另一位作者布兰代斯后来成为美国最高法院第一位犹太大法官,他在日后美国高等法院“奥姆斯特德诉美国”( Olmstead v. United States)判例中撰写的反对意见[3],成为《隐私权》一文的重要补充。布兰代斯的这两篇文章,奠定了今日隐私权的理论基础。
今天,伴随着技术的不断迭代与进步,我们进入了数字时代,应对隐私保护的挑战,风险与难度与日俱增。特别是大数据分析和人工智能技术已经应用到各行各业之中,新一代人工智能算法依靠海量的数据和算力,在很多领域取得了非凡的突破。人工智能建模时访问与使用的数据越多、数据的来源越多样化,模型输出的准确率往往就越高。于是跨组织、跨行业的数据共享成为智能化系统精度提升的重要手段。
数据共享的前提需建立在不损害用户隐私的基础之上,隐私计算(Privacy-Preserving Computation)技术应运而生。隐私计算融合密码学、人工智能、芯片设计等学科,以多方安全计算、差分隐私、可信计算为代表技术,可在保证数据隐私不泄露的情况下实现计算分析,为跨组织的数据共享提供可行的技术方案,保障数据“可用而不可见”。未来,隐私计算技术通过不断打通跨企业、跨行业的数据孤岛,在保障安全、合规的前提下,孵化出更多的创新业务场景,促进相关行业健康有序的发展。
隐私理论发展史
(一)隐私与文明
我们普遍认同隐私权的理念来源于近现代的西方。追溯历史,隐私的概念在东方文明中也源远流长,并具有不同的侧重点。同西方隐私更强调个人权利不同,农耕文明、强调家族观念的儒家文明对于隐私观念,试图在个人权利与群体秩序之间试图建立一种和谐。从儒家典籍中可以发现,隐私以“礼”为表现形式。在《礼记·曲礼》中有大量涉及尊重他人私人信息、私人空间的条目[4],“儒家的隐私观念基于群体内部的个人而非与群体对立的个人,同时支持对于隐私事务行动干预以达到共同善的结果”。传统中国建筑也富含隐私考虑,考古发掘证实远在西周时代,具有保护家庭隐私的院落和影壁墙就已经起源[5]。
在同时代古希腊的哲学讨论中,隐私理念更多将个人与群体对立,这其中最著名的要数亚里士多德对两个领域的区分:政治活动的公共领域和家庭生活相关的私人领域[6]。沃伦和布兰代斯在《隐私权》一文中将隐私定义为专注于保护个人的“不受打扰的权利”。布兰代斯成为美国最高法院大法官后,在“奥姆斯特德诉美国”案中将这种“不受打扰的权利”的概念与美国宪法第四修正案提供的权利结合起来,将个人隐私权上升到美国宪法层面,这一观点在日后逐渐得到美国司法界的普遍认同并扩展到更大范围,比如美国最高法院最具有里程碑意义的裁决,1973年“罗诉韦德案(Roe v. Wade)”中[7],九名大法官以 7-2 的投票结果裁定,美国宪法第十四修正案的正当程序条款也提供了一项基本的“隐私权”来保护孕妇的堕胎权,从美国宪法层面将个人的“身体”也包含在隐私权的保护范畴。
沃伦推动《隐私权》撰写的另外一个历史背景来自于技术进步。美国南北战争后,数十年的科技发展给沃伦和布兰代斯生活的波士顿地区带来了巨大变化:贝尔在波士顿发明了电话,第一个商业电话交换机于 1877 年在波士顿开通;与此同时,还出现了电报、便携式照相机、录音设备。这些技术发明给新闻记者提供了更强大的音视频采集和信息传送工具,“威胁着收集和传播有关个人的信息到整个世界”,《隐私权》文章的意图是建构一个“可以用来保护的原则”,让个人隐私免受这种新兴技术的侵害,“不受过于进取的媒体、摄影师或任何其他用于记录或再现场景或声音的现代设备的拥有者的入侵。”
(二)隐私权全球立法历程
从隐私权理念到立法,隐私权的保护在世界各地得到了不断地进展:
1890年沃伦和布兰代斯在哈佛法律评论发表《隐私权》:提到隐私权是一种“不被打扰的权利”,成为美国法律史上最有影响力的论文之一,被认为是美国第一个主张隐私权的出版物。
1948年联合国人权宣言:联合国大会于 1948 年 12 月 10 日宣布联合国人权宣言 (UDHU) ,该宣言由来自世界各地具有不同法律和文化背景的代表起草。其中第 12 条规定:“任何人的隐私、家庭、住宅和通信,不得任意干涉,荣誉和名誉不得受到攻击。每个人都有权受到法律的保护,免受此类干涉或攻击。”
1973年美国卫生、教育和福利部 (HEW) 秘书的自动化个人数据系统咨询委员会 (SACAPDS) 制定了具有里程碑意义的 1973 年《记录、计算机和公民权利》:该报告是公平信息实践的起源,是现代隐私立法原则的基础。
1974 年颁布的《1974 年隐私法》(US Privacy Act):它是一项美国联邦法律,针对联邦机构收集、维护、使用和传播个人身份信息制定了公平信息实践准则。
1995年欧盟数据保护指令:欧盟于 1995 年通过的数据保护指令规范了欧盟内部个人数据的处理。与美国相比,隐私权在欧盟是一个更发达的法律领域。数据保护指令于 2018 年被通用数据保护条例 (GDPR) 取代。
1996年美国HIPAA 健康和医疗隐私:HIPAA 或 1996 年的《健康保险流通与责任法案》旨在简化医疗保健信息的流动,保护由医疗保健和健康保险行业维护的个人身份信息免遭盗窃和欺诈,并处理健康保险范围的限制。
1999年美国 GLBA法案 (Gramm-Leach-Bliley Act):也称为金融服务现代化法案,保护金融方面非公开个人信息(NPI)。
2012年欧盟被遗忘权:欧盟委员会于 2012 年发布了一份欧洲数据保护条例草案,将取代欧盟数据保护指令。该法律允许欧盟公民向搜索引擎提交请求,要求将个人信息与搜索其姓名的结果脱钩。
2018年欧盟通用数据保护条例 (GDPR):GDPR 是一项处理数据保护和隐私的法律,于 2018 年 5 月 25 日在欧盟 (EU) 和欧洲经济区 (EEA) 生效。它也适用于个人数据的传输欧盟和欧洲经济区以外的地区。
2021年9月《中华人民共和国数据安全法》:明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任规定支持促进的具体措施。
2021年《中华人民共和国个人信息保护法》:2021年8月20日,中华人民共和国第十三届全国人民代表大会常务委员会通过了《个人信息保护法》。该法于2021年11月1日起实施,开启了中国隐私权及个人信息保护的新时代。
(三)我国隐私保护的举措与发展路径
伴随着人工智能算法效率的提升,基于数据智能的行业应用逐渐成熟,数据与算法层面所面临的伦理挑战日趋复杂,大数据应用的安全与隐私风险成为制约大数据技术行业健康发展的重要因素。数据共享利用的效率,与数据安全和隐私保护之间存在着明显矛盾,需要大数据治理体系以及相关数据法律法规的规范,这也是大数据治理体系诞生与完善的迫切重要原因。致力于数据治理与个人信息保护,我国做着不断的尝试。至今,我国网络数据法律体系中有三块重要支柱,分别规范三块不同领域:
《网络安全法》:侧重于网络空间综合治理;
《数据安全法》作为数据领域的基础性法律主要围绕数据处理活动展开;
《个人信息保护法》从自然人个人信息的角度出发,保护个人信息权益
数据智能时代的隐私挑战与应对
(1)人工智能技术革命带来的隐私挑战
随着深度学习算法革命席卷人工智能各个领域,在语音识别、计算机视觉、自然语言理解等人工智能核心领域,利用大数据、GPU算力以及和深度学习算法,一项项新的人工智能性能纪录被创造出来并很快被再次打破,AI算法识别精度首先在语音识别、图像分类等感知智能领域超过了人类,并逐渐将这种优势扩展到更多复杂的认知智能领域。
在这一次人工智能浪潮中,基于大数据的深度学习技术最开始在互联网领域成功落地,并广泛运用于搜索、推荐、语音识别、机器翻译等各个方面。随着人工智能超级模型工作的推进,AI算法很大程度上摆脱了对于高质量标注数据集合的依赖,算法训练模型所使用的数据规模越大,模型参数规模越大,模型在使用时候识别精度就越高,AI进入大模型时代。更多的人工智能技术应用场景可以落地在医疗、金融、教育等数据丰富的行业,帮助企业实现产品改进、流程优化和商业模式创新。AI建模时大规模的数据使用给个人隐私保护带来了新的挑战。
(二)互联网时代的数据隐私挑战
在互联网环境中,隐私问题在很大程度上集中发生在用户在互联网上生成或共享的信息上,如何确保敏感数据和个人数据的隐私保护。今天互联网已经发展成为全球数字基础设施,互联网也成为全球网民的公共社交平台,这将数据隐私的挑战推到了前所未有的规模和复杂度。互联网行业中占主导地位的商业模式是在线广告,通常利用互联网用户的个人信息(个人基本信息、交易历史、浏览记录等)的个性化广告推荐是提高广告精准度的重要手段,隐私挑战主要来自于以下几个方面:
用户社交媒体的使用中,主动提供或暴露的个人信息
Cookie等技术记录用户浏览痕迹
网站之间数据共享
网络攻击与网络犯罪窃取用户数据
另外,在使用一些互联网服务时,用户需提供姓名、电话、实时位置等信息,有时相关应用的隐私政策并未被用户主动阅读或理解,存在透明度与知情同意缺乏的隐私挑战。除此之外,为了保护互联网用户对于个人信息的控制权, “被遗忘权”(right to be forgotten)、“数据可携带权”(right to data portability)等隐私要求也时常被提起。
(三)医疗数据隐私保护标准HIPAA
人工智能技术用于医疗来源已久,第一代人工智能应用“专家系统”就是在医疗行业起步的,用以辅助医生诊断并获得一定效果。随着医疗信息系统电子化、信息化、智能化,特别是新一代医疗影像、基因测序等数字技术用于诊疗,个人健康数据越来越多的被收集并用于精准医疗。相比其他领域,个人健康数据的隐私泄露除了个人医疗信息本身的敏感性以外,网络犯罪分子还可能利用这些数据用以医疗相关的欺诈和犯罪,比如非法订购医疗设备和处方药、保险欺诈或其他形式的犯罪。如果这些信息被滥用或误用,会带来极大的社会问题。
在医疗数据隐私保护方面,美国在1996年颁布了《个人可识别健康信息隐私标准》(HIPAA),今天HIPAA已经成为具有全球影响力的行业隐私标准。HIPAA隐私规则保护“个人可识别健康信息”, 也被称为“受保护的健康信息 (PHI)”。该信息包括人口统计数据,其涉及到:
个人过去、现在或未来的身体或心理健康或状况,
向个人提供的医疗保健服务
为个人提供医疗保健的过去、现在或未来的付款
个人可识别的健康信息例如,姓名、地址、出生日期、社会安全号码
HIPAA标准发布后不久,美国卫生与公众服务部发布隐私规则(the Privacy Rule),以实际开展针对HIPAA规定的要求,该隐私规则不久覆盖医疗机构,其涵盖的实体(Covered Entity)[8]包括了数据可能流通的整个闭环:
健康计划提供商(Health Plans):包含商业医疗保险提供商、健康维护组织(HMO)、雇主赞助的健康计划、支付医疗保健费用的政府计划(例如医疗保险、医疗补助以及军队和退伍军人的健康计划)等;
医疗服务提供商(Health Care Providers):包括医生、诊所、理疗师、药店、疗养院等;
医疗保健信息交换所(Health Care Clearinghouses):信息交换所包括代表相关机构处理非标准健康信息以符合数据内容或格式标准的组织
HIPAA的隐私规则还涵盖了医疗信息相关业务伙伴以及商务合同,包括:法律、精算、会计、咨询、数据汇总、管理、行政、认证或金融服务。换句话说,同医院、诊所、医生、以及与受保护健康信息 (PHI) 进行交互的人员都需要遵守HIPAA制定的合规要求。
遵守HIPAA对医疗服务提供者来说是十分重要的,他们被称为受保实体。由于健康数据在各种医护环境中发挥了核心作用,各实体不得不重新评估他们用来捕获、存储、传输和交流病人记录的技术。而对于医疗数据的使用和披露,HIPAA隐私原则规定了允许的使用和披露,需授权的使用和披露,以及提出将使用和披露限制在最低限度,和对涵盖实体必须提供的有关隐私的通知权及其他个人权利。HIPAA还要求:
病人数据的备份必须是完整的,加密的和在监测中的;
关于PHI的传输,必须保证通信渠道的安全,例如访问限制,端对端加密,损失预防;
对医疗实体必须进行全面的风险分析。
健康数据是最敏感的个人数据,HIPAA的隐私原则和全链路的隐私管理方法,给其他高敏感数据行业的隐私管理发展提供了指引。
隐私计算:机遇与挑战
(一)隐私计算的发展目标
图灵奖获得者中国科学院姚期智院士在1982年提出了著名的百万富翁问题[9]:两位百万富翁,他们有兴趣在不透露实际财富的情况下想知道哪一位更富有。姚院士同时提出了具有里程碑意义的观点:多方安全计算的隐私计算课题和混淆电路的技术解决思路,打开了隐私计算技术发展的大门。近年来,伴随着互联网的高速发展,数据隐私问题日益突出,个人隐私与网络发展的平衡已从社会问题转变为科学问题。多方安全计算、联邦学习和可信计算环境已经发展成为隐私计算的几个主要技术领域。
隐私计算是提供数据隐私保护的前提下,对数据进行分析计算的一种技术。在保障数据隐私安全的基础上,让数据以“可用不可见”的方式进行安全流通。提供全面的数据保护功能,可最大限度地减少个人数据使用并最大限度地提高数据安全性,同时获得解锁敏感数据,通过数据分析获得洞察力,并保护数据来源隐私。以安全数据共享的方式,促进企业之间的商业协作,甚至包括高度监管的领域(例如医疗与金融)、竞争对手企业之间的协作,从而激发大数据与人工智能技术的最大潜能,促进行业发展。
(二)隐私计算相关技术与应用案例
联邦学习,构建金融监管方面创新探索
联邦学习(Federated Learning)是谷歌技术团队在2016年提出的机器学习框架[10]。联邦学习以一个中央服务器为中心节点,通过与多个参与训练的本地服务器交换网络信息,从而实现人工智能模型的更新迭代。联邦学习可以保证数据隐私安全的基础上,实现多方在数据不共享的前提下,完成人工智能共同建模,做到AI算法建模领域的数据可用不可见。
在以往单个金融机构(例如证券、银行、基金公司)的数据,不足以支撑建设精准的有效反洗钱模型。通过联邦学习技术的联合建模,将多机构之间的数据联合利用对模型进行补充,扩充反洗钱模型的样本,在不泄各自公司数据的条件下,构建更精准的联合反洗钱模型。商业金融机构使用联邦学习,将银行、保险等各金融机构的数据模型联合应用,从而提高反洗钱模型准确度,提高反洗钱审查效率。
多方安全计算,实现跨平台营销精准广告投放
多方安全计算(Secure Multi-Party Computation)技术针对精确计算和数据库查询,各个持有数据的主体在不暴露原始信息的基础上,交换部分数据,进行协同计算。
例如,汽车企业向用户精准推送汽车广告,该企业数据库资源包括用户手机号和购买数据等,它希望在短视频平台上投放广告。与此同时,投放广告的短视频平台也拥有其用户的手机号与浏览信息。在没有多方安全计算技术支持下,需要在企业间将个人信息共享才能实现跨组织的模型推荐。利用多方安全计算技术,则可以在不披露具体信息下来融合双方的数据,利用“安全求交”等技术手段,保证双方不知道对方的数据内容,确定精准广告的投放对象,在保护信息隐私的前提下提高对目标用户的精准识别率。
同态加密,支持云平台上的隐私计算
同态加密(Homomorphic Encryption)是三位MIT的密码学科学家在1978年提出的一个技术设想,它是一种无需解密即可对加密数据直接进行计算的密码技术。通过同态加密,敏感数据在传输和处理的所有阶段都得到加密保护。同态加密技术先后经过了部分同态加密、近似同态加密、全同态加密的三个技术阶段。2009年,斯坦福大学博士Craig Gentry提出了全同态加密算法,第一次完整实现了同态加密的技术梦想。
同态加密非常适合云计算的场景。用户往往因为缺乏算力而需要云平台的支持,但在公共云上处理敏感数据可能会导致数据隐私泄露。利用同态加密技术,可以解决用户数据隐私保护问题:
1、用户将数据处理程序上载到公共云平台;
2、将隐私数据同态加密后送给公共云平台,用户保留加解密密钥,云服务平台上数据无法被第三方识别;
3、数据处理程序直接对同态加密后数据处理,并将处理结果返回给用户;
4、用户对返回结果解密,并得到最终计算结果
隐私计算还有许多相关技术领域:可信执行环境(Trusted Execution Environment)通过可信硬件为载体,提供硬件级强安全隔离和通用计算环境,来保护静态、传输中甚至计算期间的数据;差分隐私技术(Differential Privacy)实现共享数据统计特征,并可以在技术上保证无法反推具体数据信息;零知识证明(Zero-Knowledge Proof)验证数据的真实性而不必透露数据内容。这些技术的不断发展将不断提高数字时代的隐私保护水平。
(三)国内隐私计算的发展概况
随着技术的不断成熟,隐私计算技术逐步进入行业落地阶段。根据中国信通院发布的《2022 隐私计算十大观察》报告数据,对2019-2022年政府招标项目的统计结果显示,隐私计算技术已经应用在金融、通信、政务、医疗等行业。其中金融行业项目(银行、证券、保险、金融科技公司)占55%,通信行业项目(主要是运营商)占17%,政务行业(政府机构与部门、事业单位)占13%,医疗行业(医院、研究机构)占8%,隐私计算已经进入应用全面落地的新阶段。
隐私计算产业迸发式增长,逐步形成了以互联网企业、电信运营商、金融机构等主要参与者。阿里巴巴等互联网企业,凭借自己在技术领域的积累,纷纷推出了各自的隐私计算产品。例如,阿里巴巴已经开发了DataTrust隐私增强计算平台,集成了众多隐私安全技术(多方安全计算、联邦学习、差分隐私、可信执行环境等),在云上提供数据隐私保护下的多方数据联合分析、联合训练、联合预测服务。
政策建议
在数字经济时代,数据已经成为核心生产要素,与此同时,数据确权、数据法规、隐私保护意识、数据安全保障等因素,已成为跨组织间数据共享与价值挖掘所必须面对的课题。隐私计算的发展,为合规的跨组织数据共享提供了技术上的保障。
(一)隐私计算仍存在性能短板,需加强基础科研投入
隐私计算仍存在性能短板,。隐私计算性能有待进一步提升,对比明文下的计算,速度仍存在数量级差距,如何大幅度降低算法复杂度将成为隐私计算长期需要面对的技术难题,需要数学、密码学等基础学科的理论突破。
在使用隐私计算技术时,大多会降低数据计算的速度与性能,给动态数据和实时分析带来挑战。因此,在投入使用隐私保护技术时企业需要权衡取舍,在自身的业务场景中找到平衡点,结合实际需求,实现最佳动态敏捷尤为重要。
(二)隐私计算领域国际标准话语权的加强
在隐私计算领域已经有多项国际标准在制定中,例如IEEE在2019年和2020年启动了《多方安全计算技术框架》和《基于TEE 的安全计算》两项国际标准的工作。需要鼓励国内政、企、学联动,积极参与国际科技学术组织与国际标准制定,加强中国在隐私计算国际标准中的影响力。鼓励国家科研机构、大专院校、高科技企业,积极参与相关国际组织工作,避免全球隐私计算规则标准被西方主导,增强我国在相关领域全球话语权。高校可考虑开设隐私计算的相关课程,培养我国在相关领域新锐人才。
(三)平衡监管与发展,鼓励隐私计算技术行业创新
从全社会角度出发,数据业务面临监管与发展的权衡。而解决数据隐私难题,除了强调提高社会面用户的隐私认知与保护意识、建设法律法规监管之外,也应鼓励通过技术创新,提高应对隐私风险的能力,为隐私计算技术提供更广阔的行业发展空间。