大数据“超能力”:数据安全和隐私该如何保障?

人人都喜欢超级英雄。

不论是超人还是钢铁侠,又或者是小蜘蛛和绿巨人,几乎每一个超级英雄漫画及电影的粉丝,都曾为其不公遭遇打抱不平:“他们明明是在用超能力做好事,拯救人类的,为什么电影里的政府和平民会这么蠢,总对他们缺乏信任,满是提防。”

这就是所谓的“叶公好龙”了,因为当你身边真出现了个能把卡车当皮球一样抛来抛去的人时,你的反应恐怕也好不到哪儿去,可能也巴不得有政府出面,逼他接受《超级英雄注册法案》。

超级英雄和现实人类的差距就像人和蚂蚁的区别,身为蚂蚁,你敢冒险吗?

这才是现实世界和真实人性面对超出理解且不可控现象时的正常反应,有超能力的人说他们只会把这些能力用在正道儿上,可谁敢百分百相信他们?

再说孰为善何为恶,又有谁能黑白分明地定义清楚?

类似的争论到了这一步,可能就会有人出来打圆场说,不要较真儿,毕竟这个世界上并没有超能力,又何必对虚构的人物和故事有这么强的带入感呢?

真的吗朋友?

这个世界真的没有“超能力”吗?

说这话的人,一定是忘了“被大数据死死拿捏”的恐惧。

大数据就像威力无比的超能力,在它面前我们都是蝼蚁。

互联网上有一个被复用到滥的文案,大概意思就是:要发财,要早早实现财务自由,就要转变思路。

拼体力无可厚非,但基本无法出头;

拼脑力,效率高一些但也有限;

只有拥有信息差上的优势,才是正解。

这种优势,正是数据“超能力”的体现。

数据体量直接导致了信息差的存在。

这几年产经界对“数据资产化”概念的探索,实质就是开始把蕴藏海量、高价值信息的大数据视作一种可以生钱的资产。

大数据“超能力”:数据安全和隐私该如何保障?

在这种观念的引导下,各行各业都在大力拓展自己的数据储备,不仅仅是扩展容量,还要尽可能地丰富其维度及来源,来强化质量,也就是它们可供挖掘和利用的价值属性。

这种观念的影响力之大、见效之快,以至于不仅仅是大企业在修炼它,连街边的小饭馆也搞起了各种各样的数据收集,消费的时候加个微信,还有用打折的幌子要求你关注他们的公众号或用小程序点餐都成了常规动作。

可以说在这个时代,数据的资产化已成大势所趋。谁掌握了更多这样的资产,谁就有可能赚到更多钱。

而且数据资产化,并不只是说数据更值钱了,还在于数据的应用方法也可以资产化。

今年6月的2021BAAI智源大会上,清华大学国家金融研究院院长朱民就在演讲中剖析了数据的经济学属性和资产特性,要点有:

  • 数据的虚拟特性,使其可重复使用,且转移和复制成本为零,非常适于分享;
  • 数据的流通就是知识的流通,这种流通可以让它创造更大的价值;
  • 数据虽然开始资产化,但数据产权还是模糊的,如果依然沿用“谁采集谁拥有”那一套,数据隐私和安全问题就很难解决。

这几点还是很好理解的,即数据资产不流通就会形成孤岛,影响其价值最大化,但要流通顺畅,就必须要以解决数据产权及随之而来的安全和隐私问题为前提。

如果我们把大数据或数据资产看作超能力的话,这个命题就变成了:我们既期待这种超能力足够强大,可以造福于大众,又一定要确保它不会被任何人拿来作恶。

我看超级英雄电影的时候,总在想一个问题,大家动不动就飞天遁地炸大楼,那些楼里的人,怎么办。

毕竟超能力是双刃剑。

需要关在笼子里。

让我们再短暂跳回到超级英雄的剧情中,蜘蛛侠的姨父在临终前对他说:“能力越大、责任最大。”

很正能量是不是?

不过现实通常是:在能力越大后,能管住自己不滥用这种能力谋私的欲望,也就越难。

这些滥用,有些是有意识的,例如最近被主管机构频频点名的“互联网企业借大数据杀熟”现象,虽然借这种小手段能多收个三五斗,但这还不是真正的危险。

真正的危险,出在那些无意识地,或有意无意的数据泄露上。

正是因为数据的虚拟特性,还有零成本复制和转移特性,它即使出现了损失或泄露,也很难被察觉,而等到个人隐私满天飞的时候,再去做溯源,也是千难万难了。

在这种情况下,数据“超能力”对普通人的打击效果,或者说不对等性就会充分暴露出来了——单个用户的数据对掌握它的企业或机构来说只是九牛一毛,但其泄露的后果对这个用户而言就如同“三体人”对上“地球人”,很可能是降维式、摧毁式的。

甚至你被卖了,你都不知道。

更甚至于,卖掉你,与你无关。

要知道这两年,光是国外的大牌企业就有几十家因数据泄露而公开道歉,而国内的泄露现象就不用提了,说一句千疮百孔、疯狂侧漏,一点都不过分。

咦,前面不是还说企业都把数据当成宝藏当成资产嘛?为什么数据隐私和安全问题还屡见不鲜呢?

原因其实也很简单——这种对数据的重视,有相当多数的企业还是停留在口头上,或者说,只愿谋利而不愿负责。

国外此前就有个调查,结论是现在坐拥数据最多的互联网公司,却普遍认为搞信息安全是负收益行为,投入越多亏得越多。

他们认为数据安全是一种防卫机制,而预防是没有办法计算KPI的,把威胁消灭在刚有苗头的时候,在老板眼里就像是光吃饭不干活,这直接导致国内外不少靠数据起家的企业在数据安全上基本都有一个较长的空窗期,谁都不愿意拿宝贵的发展资金来巩固数据安全。

而且,我们刚刚还提到“有意无意”,即有些企业虽无意大力投入数据安全,因为迟迟不见收益,却难免有内鬼蓄意危害数据安全,因为转手就是真金白银,这才是最防不胜防的。

面对数据资产化、数据流通分享、数据安全和隐私保护这种千头万绪,彼此交织的复杂问题时,当驼鸟或许也是一种态度,大不了数字化不搞了呗。

但回顾人类历史,大数据可远不是惟一的“超能力”。

几乎每种重大技术发明都是某种“超能力”。

对比百多年前的人们,如今的我们活得就像“超人”一样,仅出行就有汽车、高铁和飞机,每一样都能秒杀“八百里加急”。

所以如果大数据或数据资产化是我们进化所必需的“超能力”,那么回避是无意义的。

就像能力没有善恶之分,关键是要看如何使用它,或者至少要给它的使用划出一条底线,即数据隐私和安全一定要获得保障。

道德是上限,法律是底线。确保数据安全,立法是关键。

对大数据产业略有了解的人,可能都听说过欧盟的《通用数据保护条例》(GDPR),目前全世界范围内它可能是最严苛的数据隐私保护法规。

它到底严到什么地步,我们在这里不罗列枯燥的法条,就拿德国最大的医疗保险公司AOK正在推进的电子病历(ePA)做个活生生的例子吧。

ePA头顶GDPR和德国《患者数据保护法案》(PDSG)的规定,又是用于存储诊断和治疗数据、药物治疗计划、过敏史和个人健康信息等高度敏感隐私型数据,因此它将数据产权还给了个人,规定ePA所有数据归受保的患者自己所有。

患者们不但有权自行决定ePA能存储自己的哪些信息及保存时间是多久,也有权决定有哪些医生能访问这些信息。此外,医疗保险公司通常只有ePA的写入权限而不能读取,且写入也要经过患者的授权。

这样一来,ePA先天就兼顾了数据流通方面的灵活性和安全需求,虽然它允许多方访问其中的信息,但不同方对信息有不同程度的访问权限,且这些权限及其期限并不固定,完全由患者说了算。

看起来很完美?

完美的规划往往夭折在执行中。

没有“严格执法”的“科学立法”就是开玩笑,数据安全保障要想在执行中避免“打折”或“变味”,首先要尽量躲开人的因素。

因为人始终是人,再怎么努力用制度去限制人,人也做不到百分百的精确,所以在数据安全中要用技术手段跳过不靠谱的人类。

其次,考虑到数据资产的应用是一个闭环,从储存、传输到处理的任何一个环节都可能出现安全隐患,因此也要用技术手段在全链路上排除不确定因素,做到全方位的保护。

要做到这两点,“技术”变成了关键词,可数据安全领域发展了这么多年,好像到现在为止也没有任何一项技术能够确保数据的绝对安全呀。

这个判断的确不假,不过如果能满足有机融合和运用多项数据安全技术,导入先进的基于硬件的安全技术,以及补足数据处理阶段的安全防护手段这几个条件,还是能有立竿见影的效果。

AOK在推进ePA安全技术部署的过程中是怎么做的?

简单来说,它的做法就是在既有各类数据安全防护方案的基础上,重点加持了基于硬件的可信执行环境(TEE)技术。

AOK这一举措其实就是对上面几个条件的充分贯彻。

其ePA涉及的数据的存储和传输,都有了相对应的加密技术和安全防护,但这些数据在系统内的读取和处理,却需要以纯文本或者说明文的形态运作,所以必须要有一个由TEE提供的受特别保护的高安全虚拟区域来防止非授权的应用和用户的访问。

在TEE的具体技术实现上,AOK选择了英特尔的软件防护扩展(SGX)技术,这正是一种基于硬件的、被集成在英特尔CPU中的、主要为数据处理过程提供安全防护的技术。

它可以借助CPU在内存等特定硬件环境中构造出一个可信的“安全隔离区”,用于容纳那些需要在处理中被严密保护的应用代码和数据。

SGX厉害的地方就在于这些隔离区,相当于在系统内创造了一个一个坚固的“城堡”,而且这些“城堡”能独立于操作系统、虚拟机、BIOS等系统之外,即使这些底层系统全部沦陷,受保护的代码和数据在这些“城堡”的保护下也能尽力挡开窃取或篡改它们的黑手。

SGX还为这些“城堡”的正规出入设定了周全的安保手段,只有真正拥有准入权限且经过严密安保检查的用户才能过关。

在AOK ePA的具体实施中,SGX的主要任务就是贴身保护其文件系统,在它的帮助下,这个系统将授权、文档管理和访问网关结合在一起,确保只有经过身份认证的授权用户才能与ePA交互。

当然,AOK看中SGX技术也有其他原因,毕竟英特尔今年发布的、面向主流单路和双路服务器系统的全新第三代至强可扩展处理器不但集成了这种技术,让其部署更加顺手,还对它进行了强化,让它最高能在一个双路系统上支持1TB的加密内存区域,也就是上面提到的安全隔离区,有容乃大嘛。

好的技术,不仅国外在用,开始重视数据安全投入的中国企业也在尝鲜。

看中SGX加密内存区域够大、安全隔离效果够硬的平安、百度和银联等头部企业也开始或已经将它用于隐私保护机器学习或联邦学习场景。

由于这些场景通常涉及多方参与的数据协同,如共同进行AI模型的训练或推理,且每一方都不希望自己提供的数据出现安全问题,但又不得不面对各自的数据和共同训练使用的模型在处理前会被解密,将暴露在真空中的风险,为了避开一些专门针对内存下手,从内存里窃取过路数据的威胁,就离不开像SGX这类技术的保护。

因为对于头部企业而言,数据安全其实比业务更重要。

后者关乎赚钱多少。

前者是无法计算的价值和责任。

不论未来数据的产权是会明确归属其产出者,还是继续目前“谁收集谁拥有”的潜规则,所有坐拥并享受数据资产收益的企业都不可掉以轻心。

数据的规模越大、质量越高,其泄露的问题就越严峻,后果也越恶劣,它伤害的已经不仅仅是普通人,企业再家大业大,也难逃厄运。

现在懈怠一时爽,等到需要一个数据安全反面典型的时候,谁能知道正在建立健全数据安全和隐私保护法规的中国不会出现一个价值700亿,甚至更重的罚款案例?

至少有一点已经很明确,那就是中国相关的立法进程正在加速,而且会更加完善,达到逼近欧盟标准甚至可能反超欧盟标准的那种完善,如果企业到那时才开始研究怎么构建安全阵地,就太迟了。

所以要做数据安全就要从现在开始,从改变规则和升级技术做起,软件、硬件、人、流程……方方面面都要完善起来。

保护用户就是保护自己,越是数据发达,越是应该小心翼翼。

野蛮生长的时代过去了,一切都要回归秩序,不管是为了用户,还是为了自己,或者为了那永无止境的数据分析和算法训练,数据安全是时候跳到工作日程的前面来了。

失去利润,失去很多。

失去安全,失去一切。

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注