为数据驱动配上强大引擎,DELL EMC+Cloudera 树立新标杆

一个真实的现状。

过去银行的营销业务,通常是销售人员找关系、拉人头,费时费力不说,营销效果往往差强人意;如今的银行营销,精准的人物画像、不断迭代优化的营销模型、云柜员等基于数据驱动型的新业务场景纷纷上阵,不仅让营销变得更加自动化和智能化,还让用户服务体验大幅提升。

这就是数字化浪潮下业务变革的一角。知微见著、以小见大,数据驱动正是当下企业数字化转型的最强主旋律。IDC甚至预测,未来90%的组织都将成为数据驱动型组织,组织的运营、管理、决策乃至创新都将围绕数据来开展。

随着数据驱动型业务场景不断井喷,基础设施和数据分析平台已成核心引擎,其决定着企业是否能在数字化浪潮中获得持续的动能。如何打造强大的数据驱动引擎就成为业界着力解决的挑战。显然,DELL EMC和Cloudera同时看到了这一巨大的市场需求。

近日,DELL EMC宣布其PowerScale成功获得Cloudera CDP平台最严苛的QATS认证。一个是全球领先的基础设施企业,另一个是大数据分析平台当之无愧的头牌,双方携手在产品与解决方案深层次的合作,不仅精准把握住市场需求,更为数据驱动基础平台建设树立标杆。

数据驱动不言容易

数据驱动近年来之火热,关键原因在于数字经济蓬勃发展。

以中国市场为例,最新《中国数字经济发展白皮书(2021)》显示,2020年中国数字经济规模达到39.2万亿元,GDP占比高达38.6%,同比增长速度远超其他经济形式。产业数字化、数字化转型这些趋势带来了丰富的数据驱动型场景需求。

但数据驱动不言容易。“数据驱动”,短短几个字背后所传递的核心含义是:前端业务实现快速响应,海量数据实现价值落地,归根结底是“让企业与组织不仅要能把数据存好和管好,更需要把数据用起来和用好。”

与那些自诞生伊始就是数字原生的互联网公司相比,传统行业在数据驱动上遇到的挑战会更大。具体来看:

其一、大部分传统企业对于数据驱动有所尝试,但依然处于探索阶段,对于数据驱动还缺乏深刻理解。去年,国资委也颁布了《关于加快推进国有企业数字化转型工作的通知》,就重点强调了加强数据驱动等数字化转型理念的重要性。

其二、与互联网行业特点不同,大部分传统企业更加关注数据安全、数据可靠为前提下的数据驱动型场景的建设,这使得简单的开源技术方案很难匹配企业的商业化需求。

其三、数据驱动往往会涉及到分布式存储、大数据、人工智能等一系列技术,但传统企业并没有互联网企业庞大的技术团队与人才,显然不能相对轻松地驾驭这些先进的数字化技术。

为数据驱动配上强大引擎,DELL EMC+Cloudera 树立新标杆

正如戴尔科技集团大中华区非结构化数据存储事业部高级经理李海所言,“未来,拥有大数据分析能力的企业才会拥有市场领先的能力。企业在构建数据分析平台时,不应该为部署、调优、实现等牵扯过多精力,也不应该为数据安全、数据治理等底层问题而担忧。”

事实上的确如此,面对分布式存储、Hadoop、Spark、TensorFlow、Tytouch这些不断变化的数字化技术,传统企业很难驾驭,更加需要进行认证、优化的方案,减少精力放在底层问题,聚焦在业务创新层面,这也是DELL EMC PowerScale与Cloudera CDP多年紧密合作的核心目的。

PowerScale+CDP,树立行业标杆

自十余年前Hadoop诞生以来,基于Hadoop的数据分析平台方案数不胜数。但为何是DELL EMC PowerScale与Cloudera CDP这对组合树立了业界标杆,在全球用户中广受青睐。截止当前,CDP on Isilon(PowerScale前身)的容量已经超过70PB,在国内就有多个银行、芯片制造等企业中广泛采用,这对组合威力可见一斑。

为数据驱动配上强大引擎,DELL EMC+Cloudera 树立新标杆

先来看看PowerScale的情况。PowerScale前身是大名鼎鼎的Isilon,作为全球知名的集群NAS平台,PowerScale在非结构化数据市场拥有大量用户基础,其横向扩展能力、容量、性能、数据管理与数据保护功能等,在各种业务场景中得到了充分考验。“PowerScale在数据治理、数据安全、数据访问上非常成熟。像PowerScale原生支持HDFS,能够大幅提升大数据访问效率;此外,PowerScale实现计算与存储分离,大幅降低用户采购和管理成本。”李海表示道。

而Cloudera作为Hadoop开源生态的创建者,近年来一直推动着Hadoop高速发展,在全球拥有广泛的用户群。Cloudera不仅开发了多个Hadoop功能组件,还在推动大数据分析上不遗余力。Cloudera大中华区售前技术总监刘隶放介绍,“Cloudera多年以来一直将业界最流行、最适合的新组件加入到Hadoop开源生态之中,以帮助用户打造最强大的数据分析引擎。”

DELL EMC PowerScale与Cloudera CDP组合的最大意义,在于帮助用户将数据从存好和管好,到用起来和用好这个阶段实现无缝衔接,用户不必花费太多精力在部署、升级、优化这些基础事情上。这对于两个公司用户群而言,是喜闻乐见的好事。

为数据驱动配上强大引擎,DELL EMC+Cloudera 树立新标杆

但获得认证、打造联合解决方案绝非易事。以本次DELL EMC PowerScale通过的Cloudera最严苛也是最高级的QATS认证为例,当前全球仅有两家存储厂商能够通过,双方投入大量人力、物力和精力才取得通过。李海直言:“QATS不是简单的兼容性认证,而是在实际环境中模拟使用CDP所有模块,按照用户使用流程来验证所有软件、硬件、功能等。”

刘隶放也介绍,Cloudera之前与EMC就有深入合作,如今这种合作得到延续并且升级,而在于戴尔科技的沟通中,戴尔科技的专业性和投入印象深刻,“双方合作需要大幅投入,因为每个版本迭代和研究需要3到6个月,需要双方工程师共同完成调试和测试多项工作。”

不断进击的PowerScale

在集群NAS流行的年代,Isilon是无可置疑的业界标杆。进入到大数据时代,很难再用集群NAS平台来定义PowerScale。经过不断的进化与成长,PowerScale更像是智能世界的一个数据湖坚实底座。

事实上,除了与Cloudera等大数据分析平台公司紧密合作之外,PowerScale近年来一系列举措也愈发证明了,其将继续引领着数据湖底座未来的发展趋势。

首先,PowerScale在推动全闪数据湖的普及。众所周知,像自动驾驶、芯片设计、基因分析、智能推荐等等AI应用场景正在迅速增加,AI模型的巨量化和复杂化带来的是数据海量化和数据处理性能的高要求。以OpenAI的GPT模型为例,最新的GPT-3模型参数高达1750亿个、预训练数据量高达45TB,模型规模、数据量和训练层数都比上一代有指数级的增加,这对于数据湖底座的性能和容量将是持续考验。

而DELL EMC适时推出的PowerScale全闪存产品线无疑极具市场价值,高性能处理器、全NVMe配置、兼容NVIDIA GPUDirect等特性,都有助于帮助用户获得更加强大的数据处理能力。

其次,混合云环境将会是企业未来很长一段时间的标配,数据湖亦需要适合混合云环境的发展趋势。以PowerScale,其同时提供支持本地、公有云工作负载选型;例如,PowerScale将横向扩展文件功能引入到像Google Cloud等云服务商,企业用户可以根据自身情况来灵活选择不同的服务形式。

总体来看,下一个十年将会是数据驱动型业务的黄金十年,数据分析能力将成为企业在数字化转型中的重要核心竞争力,而DELL EMC PowerScale不断进化的能力,以及与Cloudera等公司的紧密合作,对于企业用户构建自身的核心竞争力将大有裨益。面向未来,DELL EMC PowerScale释放的价值将远不止于此。

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注