数据中台并非舶来品,而是中国互联网巨头制造出来的概念。
事实上,在国内各行各业掀起一股所谓的数据中台热之际,国外用户却对之鲜有提及。但是,这并不代表国外市场对于数据价值不重视。恰恰相反,在欧美等数字化程度很高的市场里,DataOps理念已经深入人心。所谓DataOps并不仅仅是某种产品、服务或者解决方案,而是AI时代全新的企业数据管理模式,目的是快速发现和使用整个用户架构中全部数据所蕴含的价值。
因此,无论是数据中台还是DataOps,颇有“异曲同工之妙”,只是称呼不同而已。对于传统行业用户而言,一味将自己的发展放入到互联网公司的环境之中有失偏颇,反而一些在传统行业数据价值实践有着丰富经验的厂商的观点值得学习与借鉴。
近日,在DataOps领域有着深厚积累、丰富实践经验、完善产品与解决方案的Hitachi Vantara公司就目前国内数据中台热潮、数据分析等热门话题进行了一番分析。正所谓兼听则明,Hitachi Vantara关于数据中台的观点,值得国内用户进一步思考。
数据分析的三大典型挑战
与天生就是数字原生的互联网公司相比,传统行业大部分企业,其数字化的进程是从无到有、稳步进化的过程。这就决定了传统企业数据价值之路不可能一蹴而就。事实也的确如此,从过去的数据仓库、数据管理,到现在的大数据平台、数据中台,传统企业的数据分析与价值挖掘经历好几个阶段。
用Hitachi Vantara中国区数据与分析业务总监于希国的观点概括为:90年代的传统BI/DW分析时代,这个阶段主要以批处理、集中式的方式去解决结构化数据的处理需求;随着移动互联网、社交媒体在2005年之后的崛起,大量多源、异构的数据开始产生,从2010年进入到商务大数据的阶段,传统集中式的数据分析方式不能胜任,随之而来的就是Hadoop这种分布式处理的出现,并且有多个数据分析应用开始出现在互联网、金融等行业之中;从2016年开始,数据分析真正进入到ML/AI大数据分析阶段,传感、实时、专业、闭环是其显著特点,并且开始影响社会的方方面面。
正因为如此,传统行业在数据分析与价值挖掘之路上可能会面临着更加复杂的局面。传统企业可能会面临着比互联网公司更加复杂与多样的数据环境、技术环境和需求特点。于希国介绍,当前很多企业在数据分析上面临着三个非常明显的挑战:
首先是很多用户的环境存在着传统数仓产品、开源产品并存的局面,尤其是开源的流行,大量开源产品融入到用户环境之中,但是这些不同的软件产品之间很难一起工作,很容易又形成一个个孤岛,为后续的数据分析带来巨大的隐患。
其次,对于传统行业用户而言,在多源、异构、海量数据的注入下,不同软件之间彼此难以沟通,业务调用、性能提升都是非常典型的挑战。
第三,对于很多用户存在的传统数仓产品,大部分都是封闭系统,很难将新的技术、产品嵌入到应用之中,比如像机器学习这些热门技术与应用等。
正因为如此,数据中台的价值才得以彰显。于希国表示,对于数据中台,Hitachi Vantara称之为DataOps,即在数据的消费者和数据的管理者之间建立一个很好的连接,使前台应用服务与后台数据之间起到很好的衔接与支撑作用,让数据分析更加自动化、平民化和业务化。
数据中台需要纽带
事实上,数据中台所扮演的角色就是集合数据采集、融合、治理、组织管理、智能分析为一体,以高效的方式将数据以服务方式提供给业务前台使用,以提升业务运行效率、持续促进业务创新。但是数据中台的建设往往又具有复杂性,需要根据行业用户自身的行业属性、业务实际情况来综合考虑。因此,数据中台产品与解决方案不仅需要能够应对足够的复杂性,还必须足够健壮,可以实现好的扩展性和灵活性,以支撑未来业务各种可能的弹性变化。
在于希国看来,数据中台的建设需要一个纽带,可以将传统企业以往各种不同的软件、解决方案集成起来,就像一个“数据管道”一样,能够让数据实现真正的高效流动与智能化分析。而Hitachi Vantara Pentaho就扮演着这个多功能、智能化、高效易用的“数据管道”角色,对大幅提升数据分析效率、挖掘数据价值起到关键作用。
事实上,Pentaho作为一个平台,涵盖了从数据接入、集成、交换,到可视化开发、优化,再到数据集市、嵌入式分析,以及机器学习等方面的全数据业务流程。“它让数据分析真正成为一个闭环。”于希国表示。Pentaho可以实现多种数据源快速导入数据湖,还具有数据集成、数据交换、数据迁移平台,同时与全程可视化的开发和大数据计算能力相结合,还可以通过自助式数据集市为数据科学家提供各种数据分析平台,而对于机器学习等人工智能方面的支撑也十分全面。“Pentaho不仅支持机器学习、深度学习,还支持强化学习。”
Pentaho作为一款开源软件产品,自从被Hitachi Vantara收购之后,其在功能层面就在不断加强与升级。以目前市面上最新的Pentaho 8.3版本为例,该版本新增了多项功能。比如,升级的数据管道拖拽功能和数据可视化能力使数据的访问、融合和治理更加方便快捷;又比如,在多云成为大趋势下,该版本针对多云服务进行了优化与提升:用户通过Pentaho 8.3可以访问多个云平台中的数据,包括AWS、Google Cloud、Microsoft Azure等。“Pentaho拥有很好的嵌入式能力,如果缺一个驱动(Driver),只需要把驱动做成包进来就可以支撑云的操作。”于希国透露道。
计划于明年2月上市的Pentaho 9.0版本将帮助用户进一步提升数据集成与分析的效率,它将为数据管道的共享、管理和监视活动提供新的数据流服务,可以减少数据管道的拥堵,从边缘到云端,提供先进的数据发现、访问和整合功能。
目前,Pentaho在经过丰富的实践之后,已经沉淀出十大典型应用场景:统一数据交换平台、主机下移与数仓迁移、数据清洗转换性能提升、互联网爬虫与机器学习、数据中心智能运维与监控、IoT工业数据采集与分析、数据可视化和自助分析与报表、非结构化数据转换与分析、数据脱敏与测试开发环境构建、数据多维模型构建与分析。
数据分析平台需要开放与生态
“最近我们有个客户在测试ETL数据抽取工具,他已经买入了十多个ETL工具,客户总结出来的24个场景中,这十余款工具没有一款可以全部满足。直到Pentaho的进入,才全部满足24个场景的应用需求。”这个例子固然体现出Pentaho产品的强大,但是也从侧面反映出用户需求的多样化、复杂性和快速变化。
因此,Hitachi Vantara全球副总裁兼中国区总经理戴建平认为数据分析平台往往需要更加开放,“封闭平台局限性太明显了。很多技术出现的非常快,数据分析平台需要更加开放,有能力将这些技术集成起来。Pentaho的优势在于,第一,开源以及良好的兼容性和开放性,可以跟业界各家厂家,包括本土厂家进行互相的迁移。其次,Pentaho是多种数据源类型高效紧密整合的无缝端到端的开放工具平台,既可以把不同的孤岛、不同的数据链路打通成为一个整体,也可以集成到客户的复杂、多样的IT环境之中。”
“我们看到过有那种客户,最初基于Pentaho早期版本来实施,封闭之后不开源,只靠自己打补丁,逐渐与时代脱节,后面就跟不上发展趋势了。这家客户的版本跟现在Pentaho的版本性能相差十倍之多。”于希国透露道。
事实上,Pentaho作为全球最流行的开源商业智能软件,其开放性、开源性是自身最大的优势。在被Hitachi Vantara收购之后,Pentaho依然保持着其开放和开源的优势。当前,Pentaho社区版全球下载量已经超过了750万,中国地区下载量位列全球第一。Pentaho在全球拥有大量的企业级客户,已经有超过2500个商业版用户,和超过20000个产品部署。
不仅如此,Hitachi Vantara在中国市场还强调了生态Co-Creation共创的理念,在金融、教育、医疗、制造等行业均设立了专门的团队,与合作伙伴、客户共同进行创新。“每一个行业都存在精准要求和前瞻性的需求,这往往不是一家公司能够做到的。Hitachi Vantara希望携手合作伙伴、客户共同合作,满足客户的切实需求。”戴建平补充道。
未来,Hitachi Vantara将致力于从两个方面拓展Pentaho的市场与生态。首先是对于Pentaho Kettle开源版本的用户,继续深挖深层次的合作需求;其次,加强合作伙伴的联系,包括ISV等合作伙伴,共同探索Pentaho在行业中如何提供更好的平台工具和推广方式,以产品集成的方式为客户提供更加丰富的选择。
“经常提数据中台的国内最大的电商平台之一就是Pentaho在全球最大的下载客户。”Hitachi Vantara全球副总裁兼中国区总经理戴建平对Pentaho的未来充满自信。