“五年前,我很多客户的平均数据量大约为10TB,以ERP、CRM等数据为主;今天,客户的数据量达到PB级已成新常态,像零售、金融等行业,除了ERP、CRM这些结构化数据之外,还有大量各种行为/社交数据;另外,基于数据驱动的应用场景正在迅速增加,与数据相关操作的复杂性远超以往。此刻,数据上云已是大势所趋、不可阻挡,必须借助云来解决相关问题。”一位聚焦大数据落地的一线行业ISV如是说。
的确,随着《关于构建更加完善的要素市场化配置体制机制的意见》首次新增数据要素,在大数据时代下,如何加速发挥数据要素的价值已然成为共识。数据不仅是数字化转型和智能化升级的基础,更成为重塑业务流程与决策方式的关键所在。
华为Cloud BU副总裁、全球Marketing与销售服务总裁石冀琳在6月18日华为云TechWave全球技术峰会(人工智能&数据)上提出了自己的看法:企业实现全面云化、全栈智能的三大关键在于:一,全面拥抱云原生;二,数据驱动决策;三,AI工业化开发。这就需要“围绕数据全生命周期技术创新,激发数据潜能,让数据成为新的生产要素。”
当下,的确到了重新认识、理解和应用数据的新阶段。然而,在数字经济蓬勃发展的大趋势下,真正引领数据应用理念、加速数据价值落地的并不是传统存储厂商,也不是开源厂商,而是以华为云为代表的云服务商。云服务商们在千行百业的场景中不断锤炼,所面对的数据规模、数据复杂度、数据处理难度、数据挖掘难度无出其右,也让自身在数据要素落地之路上脱颖而出。
数据驱动下的暗流涌动
有人曾言:数据如水,它既可以形成大江大河,滋润万物生长;亦能汇聚成连片沼泽孤岛,使人深陷其中。这形象地说明了数据所带来的两面性,而决定因素是数据处理机制。众所周知,因为数据规模、数据类型今非昔比,使得数据的“采、存、算、管、用”等加工处理过程面临着前所未有的挑战,亟需新的数据处理机制来应对。
首先,数据产生源、数据类型、数据量都发生了翻天覆地的变化。以数据产生源为例,机器正在成为产生数据的主力军,一辆L4级别的自动驾驶汽车一天可以产生60TB数据量,这还不包括自动驾驶训练算法每天通过训练产生的大量数据;又如,OpenAI去年五月发布的GPT-3模型,光模型参数就高达1750亿个,预训练数据量高达45TB,比上一代模型足足高了100倍……种种例子数不胜数,充分反应出数据处理能力要求的变化。
其次,数据操作复杂性今非昔比。大量半结构化/非结构化数据并存、数据分析越来越细化、数据分析链路长、数据操作集成度差,使得在海量数据规模的环境中,数据移动、数据访问活动的授权、管理和审计等一系列数据操作变得困难重重。有人甚至形象地称之为数据重力现象,即随着数据量一直膨胀所带来数据往来、移动操作变得愈加复杂与困难。
第三,基于数据驱动型应用正在井喷,并且正在深刻改变着业务流程和决策模式。以金融营销为例,过去依赖本地数据仓库分析来制定营销方案,数据模型范式有要求、维度单一、实时性差,营销方案分析维度少、业务响应差。如今的金融营销,则构建在基于数据驱动的场景之上,收集用户各种维度的相关数据,充分利用云上的资源优势进行训练模型,实现精准营销和数据价值闭环,实时调整营销策略……类似的情况在千行百业中如雨后春笋。
因此,将数据存得下、流得动、算得快、用得好,真正构建基于数据的核心能力并不是一件容易的事情。为此,华为云在本次峰会上提出了“DIGITS”设计理念。所谓“DIGITS”即是围绕数据的全生命周期,构建云原生数据平台,实现数据的全域整合(Integration)、统一治理(Governance)和智能(Intelligence),让用户能够基于可信数据(Trustworthy)进行探索发现(Search & Discovery),驱动业务决策(Decision),激发数据潜能。
“围绕数据这个核心生产要素,充分发掘数据价值,从单点技术创新,走向系统性的技术创新。”石冀琳表示道。基于DIGITS理念,华为云通过数据使能DAYU,围绕数据全生命周期提供一站式解决方案,实现从咨询到实施再到技术平台的端到端全生命周期数据管理。
华为云FusionInsight:持续成长
今年以来,数据驱动、云原生数据湖、湖仓一体等热门词汇成为业界关注的焦点。究其原因,本质上是随着企业上云成为大势所趋之后,大量应用迁移到云中,以及大量基于云的新应用诞生,对于数据“采、存、算、管、用”全生命周期的管理有着急迫的需求。
为此,华为云FusionInsight智能数据湖迅速获得企业用户的广泛关注,其所提供湖仓一体的数据解决方案,可以帮助客户构建云原生数据湖,实现数据全生命周期的管理。
华为云架构与技术规划部部长朱海培认为,业界围绕数据已经具备了很好和成熟的引擎、工具和平台,但这些工具与平台都是独立成体系,诞生之初为某一类场景而设计;当客户上云之后,面临的是场景多元化,针对不同需求需要运用不同的引擎/工具,需要有解决方案以全局角度来帮助用户,这也是为何湖仓一体现在很热的关键。
“当数据规模达到一定阶段后,过去针对单点或者单个场景的引擎/工具一定会出现瓶颈。”朱海培补充道,“以存储引擎为例,大数据存储引擎、Flink存储引擎、Spark引擎都有一份数据,数据搬迁、数据操作复杂度高,浪费存储空间,数据一致性也是挑战。”
华为云FusionInsight提供湖仓一体的数据底座,通过底层OBS统一数据存储,全局一份数据无需搬迁;一个平台多引擎支持批处理、流处理、交互式查询等;元数据统一管理,全局一个视图,像管理代码一样管理数据。
为进一步丰富自身的数据技术能力和解决方案完整度,加速帮助用户实现数据全生命周期的管理,华为云在本次峰会上还宣布云原生数据湖统一数据平台MRS、云原生数据湖Serverless数据湖探索DLI、实时数仓GaussDB(DWS)、金融级分布式云原生数据库GaussDB(for openGauss) 等4款数据新品正式规模商用。
具体来看:
- 云原生数据湖统一数据平台MRS,为客户提供湖仓一体的统一数据平台,让客户在一个架构下实现离线、实时、逻辑数据湖,释放海量数据价值,业务洞见更准;
- 云原生数据湖Serverless数据湖探索DLI提供基于Serverless的融合处理分析服务,企业可轻松完成多数据源的联合计算分析,挖掘和探索数据价值;
- 实时数仓GaussDB(DWS)提供即开即用、可扩展且完全托管的分析型数据仓库服务,支撑高并发高性能实时数据分析,能够满足互联网、物联网等场景用户实时推荐、实时风控、实时监测、精准营销等数据实时处理需求,提升企业竞争力;
- 金融级分布式云原生数据库GaussDB(for openGauss),是华为结合云原生与AI的技术打造的金融级分布式数据库,具备混合业务负载处理的高性能、高可用、弹性扩展、全密态、AI-Native自治五大关键能力,主打金融政企核心交易、企业生产系统等关键业务场景。
显然,过去耕耘政企市场多年,使得华为云对于数据处理与治理的理解更加深入,也更加契合用户实际需求。例如,朱海培就强调,华为云的视角会更加聚焦在用户混合场景下的数据统一处理与治理的难题。对于广大政企用户而言,多云环境显然是未来相当长时间内的标配,多云环境下的数据处理与治理更加考验云服务商解决方案的能力。
例如,云原生数据湖统一数据平台MRS,就可以通过一个架构实现逻辑、实时、离线三种数据湖,很好满足混合场景的需求。朱海培表示,“展望未来,我们也希望能更好地帮助用户实现数据的融合,从本次MRS、DWS等新品中,大家可以看到这些产品基于统一存储、统一元数据、统一管理的技术特性已逐渐呈现出来,华为云接下来也将持续保持技术创新,让智能数据湖产品更好地赋能客户。”
不可小觑的华为云
如今,华为云正在围绕数据构建起核心竞争能力。华为云FusionInsight智能数据湖持续投入超10年,携手800+家合作伙伴,服务于全球60+个国家和地区的互联网、政府、金融、运营商等行业用户。
此外,华为云还获得了IDC、Frost & Sullivan等权威咨询分析机构的广泛认可。例如,在《IDC MarketScape: 中国大数据管理平台厂商评估,2020》报告中,华为云凭借FusionInsight过硬的综合实力和技术创新,位居“领导者(Leaders)”象限;在Frost & Sullivan《2020年中国数据管理解决方案市场报告》中,华为云在产品创新能力、成长能力、基础能力三个维度全面领先。
华为云的成功并不是偶然。首先,华为自身就是一家全球化的公司,涉及业务之广、规模之大、复杂度之高,在业界都具有典型性,其相关方案极具参考价值与借鉴意义。例如,华为结合自身的数字化转型经验,在打造数字工厂解决方案中,建立起的统一数据平台、统一数据规范和统一数据视图在制造业中就非常具有参考价值。
其次,华为云以FusionInsight智能数据湖为基础,在产品技术层面进行了持续的创新与完善,其产品组合的成熟度和丰富程度走在了业界的前列,这无疑将持续增加华为云在数据层面的核心竞争力。
另外,近年来,随着华为云在多个行业不断突破,为多个不同行业、不同规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验和有洞见的视角。
总体来看,从十年前数据湖概念提出,到如今湖仓一体解决方案的流行,一条数据价值之路已然开启。而华为云在本次TechWave全球技术峰会(人工智能&数据)上所展现出来产品、技术、方案、理念都日臻成熟且富有洞见。下一个十年,将是数据使能的十年,而华为云必然迎来更大的舞台。