“因为疫情的原因,银行业务线上化、数字化的趋势明显加快,基于数据驱动的业务场景不断涌现,业务变化多、弹性大、需要快速响应,数据量大、类型丰富,所以我们开始借助云原生数据湖服务实现对各类业务的快速支持。”一个城商行数据部主任去年向大数据在线如是说。
的确,随着千行百业数字化转型的深入,数据已经成为最重要的生产要素,犹如数字化时代的“石油”。不过,就像石油需要经过开采、精炼一样,数据要想挖掘其价值,也需要经过采集、汇聚、挖掘和分析,最终在各种应用场景中创造出价值。
所以用户近年来对于数据湖的理念、产品和方案愈发接受,加上云计算的日渐普及,云原生数据湖服务正在获得越来越多用户的青睐,成为用户挖掘数据价值的首选。
云与数据湖为何是最佳CP
在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用昂贵的数据仓库解决方案来存储和分析数据,这种方式模型范式固定,底层数据无法做到多样变化,逐渐跟不上企业业务变化的速度。
今天,在5G、物联网、人工智能等技术的驱动下,多个行业用户的数据量达到PB级,并且数据类型丰富,除了ERP等数据外,还有大量像文档、视音频、行为数据等非结构化和半结构化数据,业务对于数据分析的及时性也愈发苛刻,这使得很多用户将目光瞄准了云端。
云计算拥有极为灵活、弹性和可扩展的计算存储资源,使得数据的存储、分析和应用变得无比容易;而数据湖最大的价值在于将企业内各种格式的数据统一汇聚,在一份数据之上进行多种分析,高性价比且高效的挖掘数据价值。有专家甚至直言,以数据湖为底座的数据平台正在成为企业数字化转型的核心。
事实上,真正让数据湖发挥价值与作用的恰恰是云计算。自2010年数据湖概念被提出以来,云服务商将数据湖概念推向落地并且大获成功。云计算的分布式架构和对于开源技术体系的支持,可以让企业及时采用当下快速变化的数据技术,另外也有利于数据湖与机器学习、AI等技术服务集成,形成数据价值实现的闭环。以华为云云原生数据湖MRS服务为例,经历多年发展,已经广泛应用于公用事业、金融、运营商、医疗等行业3000+政企,成为云原生数据湖的突出代表。
那么,数据湖在经历十年的发展之后,会在云计算时代呈现出哪些新的趋势?我们从华为云云原生数据湖MRS四大核心能力和最近三大新特性中一见端倪。
数据湖再进化
回首数据湖过去十年,正是数据湖产品、技术和商业模式不断探索与落地之路。在这十年里,开源厂商、传统存储厂商和云服务商纷纷加入到数据湖的推广与落地之中。最终,云服务商们脱颖而出,推动着数据湖持续进化。
以华为云云原生数据湖MRS为例,其除了之前Hadoop生态的Spark、Flink、Kafka、HBase等各种高性能组件之外,持续添加像人工智能、数智融合元数据、缓存加速、跨源跨域分析等新能力,不断拓展数据分析的边界;并且同时支持混合云和公有云两种形态;更加重要的是,云原生数据湖MRS丰富的组件和丰富的数据生态有机结合,为开发者提供广泛的选择,可以让客户在公有云快速构建高性价比、灵活开放、安全可靠的一站式大数据平台。
事实上,华为云云原生数据湖MRS之所以能够引领数据湖的发展趋势,离不开其在诸多行业、不同用户的真实场景中的锤炼,通过各种需求趋势的洞察实现各种核心能力的不断提升。以近年来热门的“数据上云”为例,云原生数据湖MRS等服务就承接了华为大数据全面上云,经历了内部复杂、大体量业务的高压锤炼,像支持华为终端云触达全球7亿用户、PB级数据处理量和20000+大数据节点,对于产品服务不断成长都极具价值。
如今,华为云云原生数据湖MRS经过内部和全球客户交付的锤炼,已经形成企业级、易运维、高安全、低成本四大核心能力。
- 首先是企业级,基于华为FusionInsight大数据企业级平台能力,历经行业数万节点部署量的考验,提供企业级调度实现不同作业之间的资源隔离,提供多级用户SLA保障。
- 其次是易运维,用户无需关注硬件的购买和维护。专门研发的企业级集群管理系统,可让用户更好监控和管理大数据平台;并可通过短信/邮件的方式,提醒用户平台异常。
- 第三是高安全,经由华为专业的安全团队和德国PSA安全认证测试,提供云上高安全的大数据服务。基于Kerberos认证,实现了基于角色的安全控制以及完善的审计功能。
- 第四则是易用运维,基于多样化的云基础设施,提供了丰富的计算、存储设施的选择,MRS集群可以用时再创建、用时再扩容,用完就可以销毁、缩容,确保成本最优。
事实上,除了上述四大核心能力外,华为云云原生数据湖MRS近期还更新了三大新特性,进一步完善了服务功能与能力,更加贴近当前用户对于数据湖的使用需求。
MRS三大新特性值得关注
近期,华为云云原生数据湖MRS进行了全面升级,最为值得关注的就是Hudi、ClickHouse、Pulsar三大热门组件的引入。
传统数据湖不支持数据更新,导致数据采用T+1离线处理模式,完全无法匹配业务灵活多变的需求。因此,华为云云原生数据湖MRS引入Hudi组件,来有效解决数据时效性问题。Hudi可以支持数据更新、数据删除,还有ACID保证,保证数据实时入湖更新操作。
引入Hudi之后,华为云云原生数据湖MRS的数据时效更快,实现分钟级数据入湖,数据时效性从T+1到T+0;面对数据有删除、更新的场景,Hudi处理效率比传统采用Hive更新方式高10倍+;此外,Hudi可以让开发人员的数据更新操作和使用数据库一样简单,单条语句即可完成;而数据实时采集入湖,Hudi把入湖处理的工作分散到全天,把整个资源消耗的高峰和低峰抹平掉,大幅提升资源利用率。
Apache Pulsar是一个发布-订阅消息系统,使用计算与存储分离的云原生架构。作为一个云原生的分布式消息流平台,Pulsar采用了计算存储分离架构,拥有灵活扩展、多租户、更灵活订阅模式和分层存储等优势。从对比测试来看,Pulsar比Kafka更具优势。华为云云原生数据湖MRS已经发布Pulsar的POC版本,用户可以一键式部署Pulsar服务,包括Broker和Bookie角色。
ClickHouse则是最近这两年非常火的一款开源的分析型数据库,拥有极致压缩率和极速查询性能。传统OLAP引擎处理能力有限,数据一般需要先组织再与BI工具对接,导致BI用户与数据工程师沟通周期长、协作效率低。
此次华为云云原生数据湖MRS上线ClickHouse高性能引擎集群,用户只需要几分钟,就可以轻松方便地一键式完成集群部署搭建,快速拥有PB级数据的秒级交互查询分析能力,帮助用户带来极致的性能体验!
华为云云原生数据湖MRS的ClickHouse拥有手动挡集群模式升级、平滑的弹性扩容能力、多元的鲲鹏算力加持、灵活易用的配置管理、高可用HA部署架构、丰富的监控运维能力和可靠的安全防护能力等优势。目前,华为云云原生数据湖MRS的ClickHouse服务在华为内部实践已经取得很好效果,整体使用规模已经达到2000+节点,数据量规模达10+PB,日增数据量100TB。
让大数据迁移更容易
事实上,大数据和数据湖相关技术、方案经过十余年的发展已经日趋成熟,当前各大行业、不同用户中存在着大量特点迥异的数据湖解决方案。为此,华为云打造了大数据迁移上云解决方案,提供IDC上云、CDH上云、云上资源迁移等多种大数据迁移解决方案,可以实现业务零改造、不中断、便捷高效的大数据迁移。
以某车企的车联网业务为例,其采用CDH开源大数据解决方案,随着车联网数据不断增加,其自建机房空间不足,扩建与研发投入成本高,运维成本也持续上升,车辆状态分析、实时监控分析等数据分析需求却一直在增加,通过华为云大数据迁移方案将其车联网业务全面服务化和云化,实现资源弹性扩缩容、百万级车辆并发安全稳定介入和打通全价值链数据。
如今,华为云大数据已经成为久经各种业务场景考验、屡获市场殊荣的云服务,覆盖金融、互联网、交通、制造等多个行业超过3000家政企客户和超过10000家互联网客户,并且连续三年蝉联中国大数据平台软件市场份额榜首。