一直以来,操作系统都是软件行业皇冠上的明珠。
从上世纪40、50年代,汇编语言和汇编器实现软件管理硬件,操作系统的雏形出现;到60年代,高级编程语言和编译器诞生,开发者通过操作系统用更接近人的表达方式去开发应用;再到十多年前,软件复杂度和规模提升,操作系统管理对象变成集群和上面运行的各种“微服务”,云计算成为一种操作系统,让开发者降低集群管理的复杂性。
可以说,一部操作系统的历史就是开发者/开发方式不断演进的历史。如今,步入到AI原生时代,大模型与AI原生应用爆发,一场操作系统的新技术革命已经爆发,操作系统正成为AI原生时代的开发创新之源。
正如本周Create 2024 百度AI开发者大会上,百度智能云率先发布新一代智能计算操作系统–万源,通过对AI原生时代的智能计算平台进行抽象与封装设计,为用户屏蔽掉云原生系统与异构算力的复杂性,重新定义人机交互,为开发者带来简单、流畅的开发体验。
随着万源操作系统的发布,一个人人都是开发者的伟大时代正式拉开序幕。
AI原生时代,操作系统再进化
多年前,Linux操作系统创始人Linus Torvalds有句名言:“Talk is cheap, Show me the code.”
的确,在过去的开发领域,代码胜于雄辩,开发者们希望通过Linus这句话表达对代码技术的推崇。如今,一切都已改变,通过自然语言来编程不是梦。在大模型的加持下,一个人人都是开发者的时代正加速到来。
百度集团执行副总裁、百度智能云事业群总裁沈抖认为,大模型的出现,彻底改变了人与机器之间的关系,从而驱动软件开发范式的变革,“传统云计算系统依然重要,但不再是主角。大模型与AI原生应用爆发后,我们需要一个全新的操作系统。”
百度集团执行副总裁、百度智能云事业群总裁沈抖
仔细分析,未来趋势的确如此。大模型的出现,本质上是一次影响深远的科技平权。以开发为例,过去是少数经过专业训练的程序员的特权,现在则通过自然语言即可实现。在大模型逐渐渗透到各个领域的时代,操作系统亦不除外,加速走向进化。
从技术演进规律和市场需求来看,以AI为核心的新一代智能计算操作系统也是必然的进化方向。
首先,在基础设施硬件变了,随着人工智能应用爆炸性增长,异构计算环境会成为标配,在一个集群中通常会存在数量庞大的不同芯片,尤其大模型训练通常需要万卡集群,需要操作系统有能力进行管理、调度和优化,实现算力资源的高效释放。
其次,操作系统的内核不可避免地走向更加复杂,大模型正在成为操作系统的新内核。大模型作为核心引擎,在操作系统内核中不能缺位。除了各种大模型之外,操作系统还需要具备构建强大的大模型服务能力,提供模型调用、评估、部署、调用等工具链。
第三,操作系统还需要提供好的应用开发工具去做工作流编排、插件管理,重新定义人机交互,为开发者提供更简单、更流畅的开发体验。
“新一代智能计算操作系统除了管理底层硬件转变为异构计算外,还首次增加了大模型压缩的世界知识,管理对象从管理进程、管理微服务变成管理智能,并且彻底改变软件开发范式,编程从面向过程、面向对象到面向需求,编程开发语言到自然语言进化。”沈抖总结道。
某种程度而言,以百度智能云的万源为代表的新一代智能计算操作系统出现,有望真正降低AI应用开发的门槛,让人人都能成为开发者,加速实现AI普惠化。
万源为何能成为AI创新之源
一直以来,操作系统都具有极高的技术难度,市场准入门槛也极高。
进入到AI原生时代,新一代智能计算操作系统更像是硬件能力、AI能力、云能力等综合能力的一次沉淀,建设难度更高。毫无疑问,百度智能云凭借在AI领域、云计算领域、开发者领域多年深厚的积累,使得其万源操作系统在开局就树立起新一代智能计算操作系统的标杆。
作为AI原生时代的智能计算操作系统,万源的架构由由Kernel(内核)、Shell(外壳层)、ToolKit(工具层)组成。
在内核层,万源屏蔽了异构计算的复杂性,其百舸AI异构计算平台在万卡集群上的有效训练时长占比超过98.8%,带宽有效利用率都达到了95%,算力效能业界最高,并且高效适配昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外异构芯片,支持以最小代价完成算力适配。
百度集团副总裁侯震宇介绍:“万源基于百度在AI、云计算等领域多年的积累,然后在AI原生时代应运而生。像百舸AI异构计算平台已在大模型训练推理和应用的复杂场景中得到充分验证。”
以异构计算目前面临最大的一云多芯挑战为例,其对于技术能力、工程化能力、生态能力要求极高,需要对不同芯片、芯片架构和应用软件进行全方位的拉通,还需要在真实复杂场景中得到考验。而且,鉴于国内芯片供应现状,“一云多芯”是企业不可避免的选择,要多芯混用来构成集群跑大模型训练任务。
尤其如何在大模型训练、特别是单一训练任务上,管理好不同的芯片就是业界极难攻克的技术难点之一,需要解决不同厂商芯片的算力均匀切分、芯片间通信效率优化等问题。目前,百舸已经实现了单一训练任务下不同厂商芯片的混合训练,且百卡规模性能损失不超过3%,千卡规模性能损失不超过5%,业界领先,最大程度上屏蔽硬件之间差异,帮助用户摆脱单一芯片的依赖。
万源在“一云多芯”方面取得业内超前水平的技术突破数据背后,得益于采用的很多创新技术,一方面百舸底层的加速库AIAK,通过做好网络通信加速,让不同的芯片都能跑起来,实现线性加速比达到95%;此外百舸在底层加速库做并行框架实现,采用Tensor Parallel(张量并行)、流水线并行,模型并行等多种并行策略,且采用自研自适应算法自动实现并行策略的参数设定,实现让异构芯片都跑在同一张算力网里,跑在同一个训练任务上。
除了一云多芯外,万源的内核层还融入了文心大模型系列+三方大模型,大模型可以压缩世界知识,将自然语言的理解、生成、逻辑、记忆能力封装起来、向上提供简单的接口,保障让AI原生应用高效运行,充分满足用户在不同业务场景下的多样化需求。
在内核层之上则是Shell层,通过千帆ModelBuilder来屏蔽掉模型开发的复杂性,解决模型的管理、调度、二次开发问题。千帆Modelbuilder将模型开发工具链产品化,可以满足企业和开发者在细分场景下对基础大模型做快速微调、精调等的需求。此外,千帆ModelBuidler还提供模型路由服务,支持根据不同任务选择适合的模型,组合编排模型来将模型能力最大化。
在Shell层之上,则是有千帆AppBuilder和AgentBuilder应用开发平台组成的工具层,核心就是屏蔽掉应用开发的复杂性,为开发者提供 AI 原生应用开发能力,提升开发效率和使用体验。千帆AppBuilder主要面向AI应用快速开发,AgentBuilder则是聚焦智能体开发工具。
以千帆AppBuilder为例,开发者不需输入代码,使用自然语言就能开发出一个AI原生应用,并且还能通过API或者SDK集成到系统之中,还能快速对外发布。
做好生态,让创新成为活水
操作系统成败在于生态,新一代智能计算操作系统更不可能例外。
AI原生时代,有了新一代智能计算操作系统这个创新之源头,还需要通过生态体系来让创新的活水滋润千行百业。那么,如何让新一代智能计算操作系统的生态体系良好成长?
百度智能云的思路是以应用为牵引,携手头部行业伙伴,共同探索大模型应用的落地与实践,让新一代智能计算操作系统、大模型在生态伙伴的实际业务场景中用起来。截止目前,百度智能云千帆大模型平台近6个月的合作伙伴数量增长已经超过500%,生态体系建设效果显著。
另一方面,万源的发布仅仅是一个起点,百度智能云的思路是未来在生态层进一步开放,通过各种措施来推动万源生态体系的茁壮成长。
具体来看,百度智能云未来向上会开放更多能力和接口,让开发者在开发应用时更加简单;向左则会以万源为基础,面向行业打造垂直行业操作系统,让新一代智能计算操作系统加速进入更多行业;向右则会将万源部署到企业的智算中心,提供稳定、安全、高效的智算环境;向下则会适配更多芯片,进一步隐去异构集群的复杂性,让不同芯片发挥最大的算力效能。
综合来看,百度智能云万源操作系统的发布的确给了业界一个明确的信号,即AI原生时代操作系统会加速走向进化。毫无疑问,百度智能云打造万源,就像是做一件极难但正确的事情,对于AI应用创新、AI普惠等长远发展将大有裨益。