全栈突围:智谱GLM-Image × 昇腾·昇思携手走出“无人区”

技术只有变得足够“便宜”,才能实现真正“普及”,从而深度融入到工作与生活的方方面面。

所以,当GLM-Image在API调用模式下生成一张图片只需0.1元时,价格仅为海外同类产品的1/10至1/3,全球AI市场都为之震撼。

GLM-Image是智谱联合华为开源新一代图像生成模型,也是首个在国产芯片上完成全程训练的SOTA多模态模型,其基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成了从数据到训练的全流程。

GLM-Image模型强大的性能表现,及背后的全栈国产化训练历程,给出了一个极具参考价值的答案 :在AI高端领域,中国公司已走出无人区,实现全栈技术突围,对于后续整个AI产业具有里程碑的意义。

GLM-Image,新架构带来变革

在AI生图领域,主要存在扩散模型(Diffusion)和自回归模型(Autoregressive,AR)两种模型,两者各有优势却也存在短板。扩散模型难以理解复杂指令,在海报、PPT、科普插图等知识密集型场景中,往往会“语义脱节”的短板,会出现物理逻辑错误等问题;自回归模型则在生成图像质量难以令人满意。

为此,智谱GLM-Image创新性采用了自回归 + 扩散编码器混合架构。自回归模型犹如“大脑”,擅长处理序列逻辑和宏观语义,负责逻辑推理与框架构建;扩散解码器则专注于图像的高频细节还原,确保最终生成的图像在视觉上达到工业级的美学标准。GLM-Image的混合架构恰似“理解”意图之后再进行生图创作,这是向探索以 Nano Banana Pro为代表的新一代“知识+推理”的认知型生成模型迈出重要一步。

混合架构的优势,使得智谱GLM-Image尤其擅长文字渲染,在海报、插画等场景展现出强大的能力。来看看智谱GLM-Image的真实效果:

据悉,GLM-Image在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单获得开源第一。

此外,GLM-Image在开源不到24小时就登顶全球知名AI开源社区Hugging Face Trending榜第一。Hugging Face是全球知名的开源AI模型与工具生态平台,堪称全球AI界的顶流。GLM-Image此次登顶,其模型SOTA性能、混合架构创新和训练过程引发了全球AI圈的广泛热议。

昇腾·昇思助力全栈突围

再好的架构与算法,如果没有强大算力底座的支撑,也无法训练出强大的模型。

众所周知,像SOTA模型这种级别的前沿模型,对于AI算力集群的性能、稳定性与通信带宽有着极高要求,并且普遍需要国外AI芯片支撑此类训练任务。不过,智谱GLM-Image模型进行了开创性尝试,从海量数据预处理到大规模预训练,再到最后微调全流程使用国产算力,使得其成为首个基于自主创新算力底座全程训练的SOTA模型,也实现国产模型+国产算力+国产AI框架的全栈突围。

具体来看,GLM-Image属于多模态模型,需要处理大量文字和图片数据,在模型训练阶段的内存开销和性能要求极高。为此,昇腾·昇思引入动态图多级流水下发、多流并行执行、高性能融合算子等特性,全面提升从数据处理、预训练、SFT到RL的端到端性能。

例如,动态图多级流水下发,彻底解决了Host侧算子下发瓶颈问题。在NPU+CPU的集群中,大规模多核CPU会涉及到单线程算子下发跟不上NPU计算速度,导致设备侧空转与整体资源利用率偏低。依托昇腾+昇思MindSpore的软硬件协同,通过动态图多级流水下发,将Python执行、算子shape推导与算子下发等关键阶段进行流水化并高度重叠,有效提升Host侧算子下效率。

又如,GLM-Image的多模态训练场景中,文本梯度同步、图像特征广播、混合并行等操作都有复杂的通信需求。单流串行执行时,计算和通信两类操作互相等待,整体资源利用率低。为此,通过多流并行执行机制,让计算与通信两类操作同时并行,打破通信墙和大幅提升资源利用率,整体提升训练性能10%。

再如,昇腾CANN高性能算子库提供包括AdamW EMA融合算子、COC通算融合算子等,针对性解决训练后期loss震荡、通信开销大等问题,为GLM-Image模型的训练带来高性能和稳定性。

无疑,基于昇腾·昇思构建的国产算力底座在此次GLM-Image模型训练中经受住充分考验,充分证明了从国产芯片、AI框架到多模态模型的全栈突围并非遥不可及。

走出“无人区”具有里程碑意义

智谱与华为的此次深度合作,其意义远超一个模型的简单发布。

长期以来,中国AI开发者高度依赖国外AI硬件、AI框架等。事实证明,这种方式受制于人且充满高度不确定性,严重束缚中国AI的创新与发展。而智谱GLM-Image模型的问世,验证了在国产全栈算力底座上训练高性能复杂多模态模型的可行性,这标志着国产AI正式走出“无人区”、实现全栈突围,对于未来市场有着不可低估的影响:

其一、打破依赖惯性,给予国内AI开发者们重要信心。智谱GLM-Image模型的出色表现具有里程碑的意义,证明国产大模型+国产AI芯片+国产AI框架的组合SOTA级模型领域同样能打,后续其示范价值有望在AI开发者中得到持续影响。

其二、智谱GLM-Image模型开源,有望进一步激发AI生图领域的创新。众所周知,开源模式是降低创新门槛的和激发技术创新活力最为有效方式,而智谱GLM-Image开源,已经受到Hugging Face等知名平台的密切关注,未来有望吸纳更多开发者了解和加入到智谱GLM-Image项目之中,从而激发AI生图领域的迭代与创新。

其三、加速商业化落地和AI新生态形成。近年来,海外频繁传出中国大模型获得全球用户青睐的消息,根本原因在于中国大模型产品技术具备相当竞争力的同时,带来极具性价比的使用体验。像智谱GLM-Image在API调用模式将生成一张图片做到只需0.1元,这无疑对整个AI生图市场带来巨大冲击力,有望进一步推动AI生图相关技术与产品的普惠和AI生态的形成。

综合观察

勇气是不确定性时代唯一的通行证。

当市场充满不确定性时,在人工智能的“无人区”里,本就没有现成的路。智谱与华为的紧密合作,无疑走出一条独立、安全且具有国际竞争力之路,不仅诞生出GLM-Image这样出身的SOTA模型,更证明了国产AI全栈突围并非遥不可及。

展望未来,随着智谱在人工智能智能领域的持续探索,以及昇腾、昇思产品竞争力稳步提升,国产 AI 穿越“无人区”之后,迎接他们的将是AGI的星辰大海。

分享到: 更多

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注