一直以来,数据安全都是重中之重。
随着生成式AI的兴起,大语言模型就像一把“双刃剑”,带来生产力飞速提升的同时,也需要海量数据进行持续训练,随之而来就是数据治理、数据安全、数据隐私保护等一系列全新的挑战。
可以说,生成式AI等人工智能新趋势正在打开数据安全、数据治理的全新格局。用户们需要重新全面审视自身的数据安全与数据治理。正如亚马逊云科技大中华区产品部总经理陈晓建所言:“数据已经是现代发明和创新之源。进入到数智化时代,数据安全是企业的首要优先级。”
那么,面对数据安全与数据治理的新趋势,企业应该如何在保证数据本身安全合规的前提下,全面释放出数据的价值?为此,亚马逊云科技围绕业务数据的可识别、可见、可协作和安全数据的可操作四大场景提供创新服务和解决方案,并助力生成式AI基础模型广泛获取内外部数据并实现安全训练。
识别敏感数据
一直以来,数据价值的释放与数据合规就像一对“矛盾体”,让很多企业左右为难。
事实上,数据合规乃大势所趋。近年来,全球主要经济体均在推动数据合规的完善。从欧盟的GDPR,到美国的 ADPPA,再到中国的《个人信息保护法》、《数据出境安全评估办法》等,各个国家均希望数据在合规的前提下有序流动、共享与应用。
比如,今年生成式AI浪潮兴起,大语言模型带来了数据安全与数据隐私等一系列的新问题。国家马上出台了《生成式人工智能服务管理暂行办法》来规范大模型的训练和保障数据安全。
在数据合规方面,敏感数据的识别、管理和分级至关重要,且耗时费力,尤其是从多个数据源中自动识别敏感数据是很多企业面临的挑战。陈晓建认为,数据的安全合规需要人、流程、工具全链路的相互配合,并且充分利用机器学习、模式匹配等方式自动识别敏感数据,降低数据合规的操作难度。
为此,亚马逊云科技打造出敏感数据保护解决方案(Sensitive Data Protection on Amazon Web Services, 简称 SDP)等量身定制的工具产品与解决方案,允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型,中心化的管理平台让客户通过网页应用程序对敏感数据资产进行可视化管理,实现业务数据合规,为释放数据价值铺平道路。
“SDP是开源的云原生解决方案,可以自动发现敏感数据并管理数据资产,适合存量数据多、数据类型不好判断这两个典型的场景。”陈晓建表示道。
提高数据可见性
数据如何充分共享永远是数据价值释放过程中的一道难题。
因为企业通常组织架构复杂、涉及人员众多,并且数据根据不同阶段和场景散落在企业各个数据系统,数据安全有效的进行共享与协作具有极高的难度。如今,数据可见已经成为企业数据治理和释放数据价值的基础。陈晓建认为,数据可见是企业内不同部门、不同角色高效挖掘数据价值的前提。
因此,企业需要构建连接数据提供者与数据消费者的桥梁,但出于数据安全的考虑又不能无限制地将所有数据共享给所有人。通常,在数据治理与高效协同方面,集中式和联邦式是企业中最为常见的联众类型。这两种方式有着各自的优劣势和适应的企业规模,且均需要多个角色的高效协同。
对此,亚马逊云科技带来了数据管理服务Amazon DataZone,帮助企业加速数据网格建设以对不同网格来源的数据进行共享和治理。该服务可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。此外,务Amazon DataZone通过数据所有权的去中心化、联邦式数据治理、点对点的数据共享等功能让数据生产者轻松管理和控制数据访问,让广大数据开发者、数据科学家、分析师和业务用户可以快速实现协作分析。
“Amazon DataZone可帮助企业实现数据一站式管理,实现快速实现协作分析,并且大幅简化数据治理难度。”陈晓建补充道。
赋能协作,激发数据价值
众所周知,数据只有充分的流动、共享和应用才能发挥出最大的价值。如今,除了企业自身内部业务数据之外,产业上下游和合作伙伴等第三方数据的加入也成为大势所趋
但多方数据的协作依然面临着数据安全、数据泄露等风险,比如有些产业链上下游是通过给合作伙伴提供数据副本的方式,虽然数据实现了共享,但依然面临着很大的数据泄露风险。因此,近年来多方计算、联邦学习等隐私计算技术开始兴起,成为企业与第三方数据实现数据共享与应用的保障。
陈晓建认为,数据协作参与方增多之后,必然会面临着数据保护与业务价值安全之间的权衡,而多方安全合规计算就是目前最为合适的方式。尤其是生成式AI兴起之后,大语言模型的训练更加渴望第三方数据。为此,亚马逊云科技推出了Amazon Clean Rooms分析服务,帮助企业与其合作伙伴在互相不暴露原始数据的情况下进行数据协作,也无需在云上移动数据,从而最大化数据价值。
通过Amazon Clean Rooms分析服务,企业只需几分钟即可创建一个安全的数据 Clean Room,创建协作项目实现数据的多方协作。此外,Amazon Clean Rooms还提供了一个密态计算的环境,数据提供方在 Clean Rooms 环境中的数据能够以加密的形态完成数据分析操作,并将分析结果解密并返回,在数据安全得到最大保护的同时,还在协作方之间充分开发了数据价值。
“多方安全合规计算还处于发展的早期阶段。目前来看,非常适合亚马逊云科技这种云环境。全球像汽车、生命科学非常渴望上下游数据交易,并且都在使用Amazon Clean Rooms服务。”陈晓建补充道。
此外,针对生成式AI的大语言模型所需要的海量第三方非结构化数据,亚马逊云科技Amazon Data Exchange提供来自300多家提供商的3500多种公共数据产品,数据来源包括金融、天气、地理空间、健康医疗等非常多的行业和领域。客户可以轻松查找、订阅和使用所需的各种第三方数据。Amazon Data Exchange与Amazon EMR Serverless等分析服务相结合,可以大大简化企业生成式AI应用开发方面的数据获取难题,加速生成式AI落地。
提升数据可操作性
不可否认,如今企业的IT环境正在变得越来越复杂。这其中,以安全环境尤为明显。
众所周知,安全供应商多、产品类型丰富,通常一家企业往往具有多家安全供应商和种类繁多的安全产品。加上企业对于安全越来越重视,直接造成了企业的安全环境走向复杂化。针对安全类的数据,实现数据可操作,即安全日志的统一管理及分析,已是业界共识。
Gartner《2022 年网络安全重点趋势》就认为:安全供应商的整合排到了趋势的第 4 位。在 2020 年有 29% 的客户在寻求安全供应商的整合,仅仅过了 2 年,到 2022 年这个数字就变成了 75%。
陈晓建表示,企业要想在短时间内做到整合安全厂商,是有相当大的挑战和难度。因为,各类安全日志和安全事件的数据来自不同安全产品供应商的不同产品,这些安全数据的整合与管理难度极大。“一个用户可能拥有超过十家安全供应商,安全整合是大势所趋,需要通过更好的工具去解决安全数据问题。”陈晓建表示道。
为此,亚马逊云科技推出了Amazon Security Lake安全数据湖服务,统一管理来自不同厂商的日志,并且让这些日志可被用来进行安全事件的分析。Amazon Security Lake支持包括亚马逊云科技、安全合作伙伴和第三方分析服务提供商在内的80多个安全数据源。
企业可将不同来源的安全数据传入该数据湖中并转换为符合开放网络安全架构框架(Open Cybersecurity Schema Framework,OCSF)要求的格式,从而自动收集、组合和分析这些安全数据。此外,Amazon Security Lake还与亚马逊云科技成熟的数据分析工具集成,助力企业安全团队在熟悉的分析环境中实现更快的威胁检测、调查和事件响应,有效解决潜在安全隐患。
“从第一天起,亚马逊云科技就把安全作为最高优先级。针对业务数据可识别、可见、可协作和安全数据的可操作等难题,亚马逊云科技通过丰富的工具集和创新的解决方案,致力于通过数据分析与安全服务的融合帮助客户释放数据价值,确保客户在数据安全上无后顾之忧。”陈晓建最后表示道。