数据隐私与加密学技术盘点——安全多方计算
8 月 20 日,中国互联网络信息中心(CNNIC)发布报告显示,我国网民突破 8 亿,其中超过 98% 的人每天用手机上网。实际上在我们享受互联网带来便利的同时,每个人的隐私也在不断被泄露与买卖中。
数据隐私泄露的现状如何?国内外相关的立法进程如何?数据隐私泄露的问题到底有没有办法解决?本文 由 ARPA 联合创始人兼 CEO 徐茂桐撰写,ARPA 是一家致力于为企业提供数据安全隐私的计算解决方案的区块链公司。
数据隐私的发展现状
随着互联网的高速发展,我们在享受丰富的互联网产品和服务的同时,也在时时刻刻向提供商提供关于我们自己的全方位个人信息。
广义上来说,所有由我们本人发起的网络使用行为,都可以看做是我们的个人信息。而我们在网上所体现出的所有个人信息,包括我们的浏览习惯、地理位置、设备 IP、使用的浏览设备和浏览器的型号都在不断被收集、存储和处理。
数以亿计的用户撑起了全球互联网科技企业超过 9 万亿美元的市值,而当互联网发展愈发呈现寡头化趋势之后, 个人数据更趋于集中,一旦泄露造成的后果也越来越严重。
根据,中国互联网协会在 2016 年发布的《中国网民权益保护调查报告》显示,2016 年国内有 6.88 亿网民曾遭受过不同程度的个人信息泄露,造成的经济损失估算达 915 亿元。
数据隐私泄露事件层出不穷:
今年 1 月,掌握着印度 10 亿公民的身份数据库 Aadhaar 被曝遭网络攻击,该数据库除了记录人们的名字、电话号码、邮箱地址等信息外,还涉及人的指纹、虹膜纪录等极度敏感的信息。
今年 3 月,Facebook 数据泄露丑闻爆发,至少 8700 万用户的隐私数据遭泄露,Facebook 股价在之后下跌超过 20%。
今年 6 月,一位 ID 为「f666666」的用户在暗网上开始兜售圆通 10 亿条快递数据,该用户表示售卖的数据为 2014 年下旬的数据,数据信息包括寄(收)件人姓名,电话,地址等信息,10 亿条数据已经经过去重处理,数据重复率低于 20%,并以 1 比特币打包出售。
…...
所以,我们可以看到数据泄漏已经从姓名、家庭住址、电子邮箱、电话号码,到个人身份证、护照号码,甚至到个人生物识别信息如虹膜、基因信息。对于普通民众来说,这些重要的身份信息一旦泄露我们就如同裸奔。
对于企业而言,一旦发生数据泄露的事件,造成的影响和损失也是巨大的。据 IBM 研究报告显示,数据泄露事件的平均总成本为 220 万美元(被盗数据在 10000 条以下)到 690 万美元(被盗数据超过 50000 条)。
对于那些登上新闻头条的大规模数据泄露事件,IBM 的调研结果表明,一次重大数据泄露事件(涉及 100 万条记录)的成本可能高达 3949 万美元。这一数字会随着遭泄露记录数量的增加而增加,这在意料之中。例如,5000 万条记录的泄露事件可能就会导致损失 3.5 亿美元。
其实,在数据隐私泄露一浪高过一浪的今天,一直领跑标准制定的欧洲和美国早已发布了数据行业的新规定。
欧洲最先针对普通消费者的数据发动了保护。今年 3 月 21 日,欧盟委员会发布了两项提案,提出针对数字化业务活动征收数字服务税(DST)。欧盟认为,现有的税法已经难以跟上企业数字化运营的步伐。DST 提案基于总收入(营业额)缴税,欧盟各成员国采用 3% 的统一税率。这其中包括出售来源于用户所提供信息、资料和数据的收入。
紧接着,今年 5 月 25 日,欧盟开始强制实施了被称为史上最严苛数据隐私保护法的 GDPR (General Data Protection Regulation,「通用数据保护条例」)。条例规定了企业在对欧盟公民进行数据收集、存储、保护和使用时的新行为标准,也给予了用户对自己数据更广泛的处理权和决定权。普华永道指出:「这将影响在欧洲内外保存或使用欧洲公民个人数据的每个实体。」
现有法律更加偏向于对个人可识别信息(PII) 的保护,而 GDPR 则把范围拓展到了数字世界里的 cookie、device ID、IP 地址等个人行为数据。针对数据收集者,GDPR 规定不能用隐藏默认的方式获取用户许可,必须提前进行明确的提示与询问,获得允许后才可以获取使用用户数据;收集之后还需要为用户提供查看收集数据概览及用途,还必须要设置用户删除的功能。
从用户的角度,GDPR 规定用户对自己的数据拥有完全的所有权,即便同意收集方收集,也可以随时查看并撤回删除相关的协议,在用户撤回删除相关授权后,数据收集者必须立即将相关数据进行匿名化处理。
每次违反条例最高处罚金额为该公司年度营业额的 4%,或者 2000 万欧元,最后取决于哪个数值更大。像 Google 或 Facebook 这类的巨头公司或许能承受起这种程度的罚款,但对于规模小一些的公司,这种处罚将会是致命的。
如今飞速发展的的大数据、云计算、AI 市场无一不严重依赖数据,这个最严格条例一出,国际互联网企业一片哀嚎。因此,GDPR 也被认为掣肘了人工智能和数据行业的发展。
再看美国数据隐私的监管现状,美国早在 1996 年就开始实施保护个人医疗数据的健康保险隐私及责任法案 (Health Insurance Portability and Accountability Act,缩写 HIPAA)。
该法案制定了一系列的安全标准,就保健计划、供应商以及结算中心如何以电子文件的形式来传送、访问和存储受保护的健康信息做出了详细规定。法案规定在确保私密性的情况下保存病人信息档案六年,还详细规定了医疗机构处理病人信息规范,以及违法保密原则、通过电子邮件或未授权的网络注销病人档案的处罚方案。
HIPAA 定义以下信息为「受保护的健康信息」(PHI):
•姓名
•出生日期,就医,入院和出院日期,和死亡日期
•电话号码,地址(包括市,县,或邮政编码)传真号码等联系方式
•社会安全号码
•病历号
•照片
•手指和语音打印
•任何其他独特的识别号码
那么数据信息在我国发展情况又是如何呢?
根据我国工信部《大数据产业发展规划 (2016-2020 年)》,到 2020 年大数据相关产品和服务业务收入应突破 1 万亿元,年均复合增长率保持 30%左右,中国将成为全球最大的大数据产业国之一。
黑市交易依然是我国数据交易的主流。财经网的一篇报道指出, 中国大数据被黑市垄断,所有正规数据交易所和第三方公司收入相加一年不到 50 亿元,因此数据行业存在巨大的增长潜力,但如果想摆脱黑市的垄断,需要在技术层面提供安全的数据分享解决方案。
据不完全统计,国内个人信息泄露数达 55.3 亿条左右,平均每人就有 4 条相关的个人信息泄露,这些信息最终的命运,是在黑市中反复倒手,直至被榨干价值。其中,80%的数据泄露自企业内鬼,黑客仅占 20%。直到 2017 年 6 月《网络安全法》出台,各类灰色和黑色数据产业才逐渐收敛,但依然暗流涌动。
图表来源,中国消费者协会 2018 年下半年组织开展的「App 个人信息泄露情况」问卷调查
加密学的几种技术盘点
其实,我们认为数据行业交易的应该是数据的使用权,而不是数据本身。数据由于本身易复制和可传播的特性,在现行的科技手段下,不能有效地防止数据在分享和使用的过程被泄露。
从企业端来看,大数据分析一般由第三方对各类数据源进行合并、分析和建模。数据集中化收集导致隐私信息泄露等风险,导致目前只有 1%的企业数据向第三方如大数据公司、AI 公司分享。拥有数据的公司无法安全的将数据共享或变现,进而产生一个个数据孤岛。
从用户端来看,大数据公司、开发者和科学家仅能接触到有限的数据集,并且费用高昂。与运营商等大数据源的合作需要开发人员现场部署模型于数据源的服务器上,模型算法存在泄露风险,且效率低下。
而要想找到数据隐私的保护手段,其实是可从可信硬件和密码学两个方向入手。硬件手段主要是可信执行环境(Trusted Execution Environment),而密码学手段主要有同态加密(Homomorphic Encryption, HE),零知识证明(Zero-knowledge Proof, ZKP),以及安全多方计算(Multi-party Computation)。
- 同态加密
同态加密是一种支持密文运算的加密方式。数学上,同态描述了将一个数据集合转换为另一个集合的对应关系,同时保持了两个集合中元素之间的运算结构。由于同态加密中的明文与密文满足同态性,因此对应的数学运算,无论是对加密数据还是明文数据执行,都将得到相同的结果。从而,可在不暴露明文的情况下,利用密文运算获得数据计算结果,实现了数据隐私和数据处理的并存。
同态加密有望在云计算中发挥重要作用,允许公司将加密数据存储在公共云中,并利用云提供商的分析服务。目前由于理论基础和技术发展的限制,同态加密的效率距实用差距很大,在短期内难以进行大规模的商用。
- 零知识证明
零知识证明可简单描述为,证明者能够在不向验证者提供任何有用信息的情况下,使验证者相信某个论断是正确的证明方法。零知识证明被大量密码学协议用作基本模块,但在构建隐私计算方面仍有多方面技术难点需要突破,包括一般性函数的计算,运行效率,多方数据隐私,可信初始化等问题。
- 可信执行环境
可信执行环境通过在硬件计算平台上引入安全软硬件协同设计架构来提高系统的安全性。通过基于硬件密钥的安全代码加载,强制硬件环境中计算行为不可作恶。其优点是速度较快,缺点是过于中心化,需要信任硬件提供方,并且存在设计漏洞,易被侧信道攻击等安全风险。
- 安全多方计算
安全多方计算研究的是在无可信第三方的情况下,几个相互不信任的参与方如何安全地计算一个约定函数的问题。
安全多方计算可在明文数据不离开各自节点的前提下,完成多方协同分析、处理和结果发布,适合以下应用场景:多个机构之间想共享数据以供信息联合查询,但又互不信任,每个机构都需要防止数据泄露。利用安全多方计算技术,可以实现数据的安全查询,即在不泄漏任何一方数据的情况下对数据整合和分析,如此,企业可以在我们的技术的帮助下打通这一原本不可能的场景,并且满足法律合规的需求。
安全多方计算对参加计算节点的算力和带宽有一定要求。但近几年科研方面的突破让计算速度有了指数级的提升。
安全多方计算或将成热点
综合考虑安全性、效率、运算能力、所能处理问题的复杂程度,在几种加密技术方案中,我们更看好安全多方计算。在近期,它越来越受到重视,被视为区块链发展和数据安全解决方案的热点。
自 1982 年由华裔计算机科学家、图灵奖获得者姚期智教授提出安全多方计算以来,至今它发展了 30 余年,目前安全多方计算效率在迅速提升,约比明文计算慢两个数量级,我们认为目前已支持中大规模商用。
数据预处理效率相较 2012 年提高了 200 多倍,计算所需时间不到明文的 10 倍。
目前区块链的共识过程存在大量冗余计算,中间浪费了许多算力和时间成本。并且,所有链上信息和智能合约都是公开的,这被视为是企业大规模部署 Dapp 以及敏感数据上链的重大障碍。安全多方计算恰恰就能改变这一点,它自带的可验证计算的特性避免了冗余计算,而且能保证参与运算的数据的安全与隐私。
我们如今正在跟欧洲领先的研究型高等院校合作,用安全多方计算去搭建一个多方数据安全共享平台。具体的计算任务由参与计算的多个节点共同完成,每个节点只能拿到数据经过混淆、掩盖的数据片段。这些片段独立存在时没有任何意义,只有将它们用密码学算法重建时才能合并出数据明文。我们只需要保证有至少一个诚实节点,所有数据便是安全的。
这种去中心化的技术杜绝了原始数据的泄露,从根本上解决了数据共享和使用中的信任问题,所以安全多方计算有广阔的市场前景。
最后,列举几个安全多方计算常见的应用场景:
- 数据安全查询
政府部门的系统中往往储存了大量的公民个人数据和企业经营数据,很多商业机构需要查询信息用作商业用途,但政府不希望数据被泄露或被拷贝走,同时,有些场景下商业机构也不希望政府知道其查询条件。利用安全多方计算技术,可以实现数据的安全查询。
除此之外,数据安全查询的解决方案还可应用在商业竞争、数据合作等众多领域中。
- 联合数据分析
跨机构的合作以及大型企业的经营运作经常需要从多个数据源获取数据,拼凑成全量数据再进行分析。已有的数据分析算法可能导致隐私暴露,安全多方计算平台可以使原始数据在无需归集与共享的情况下实现计算,保护目标数据持有方的隐私及资产安全。
- 联合征信
安全多方计算平台可赋能金融、保险企业对客户的负债率等风险指标进行联合分析。目前各家金融、保险、资产管理机构只掌握客户部分数据,从而导致风险评估误差。联合分析不泄露各参与方数据,对客户的风险有整体评估,在多头借贷等场景下能有效降低违约风险。
- 多维度健康分析
安全多方计算平台赋能医疗机构对病人在多家医院的病历和智能硬件生物数据进行分析,从而在病人、医院和智能硬件厂商数据不泄露的情况下,对病人有更精准的诊断。同时,针对医疗机构的联合数据分析可以让药品研究机构对某特定地区特定病种有更全面的了解。
- 精准广告投放
安全多方计算平台赋能商户对潜在客户多维度信息进行分析,从而更精准的投放广告。广告投放机构可以从更多数据维度对客户购买意向建模,且数据源不泄露个人隐私数据。
- 数据匹配
安全多方计算平台可完成两方或多方的去中心化数据匹配,数据无需脱敏。
我们的长期目标,是想让每个人把个人数据,包括行为、医疗、健康和基因数据在保护隐私的情况下安全、高效地变现。如此,不仅能让更多人意识到数据的价值,推动社会对个人隐私的守护意识,还能解放大量数据,增加数据流动性,形成双边数据市场,从而更快推动人工智能的发展。