2025年被视为AI Agent爆发之元年,AI Agent在标准化和短周期任务中展现出令人惊叹的应用能力,市场中爆发多款备受瞩目的AI Agent 产品。面向未来,AI Agent对于长周期、复杂化任务领域也有望取得飞速进展,这无疑将彻底重塑众多行业的业务、流程和组织。
“为什么不?”–当亚马逊云科技CEO Matt Garman在AWS re:Invent2025大会上喊出这一口号时,设想未来数十亿AI Agent协同工作的壮观场景,现场观众无不欢呼。
作为云计算领域的顶级盛会,AWS re:Invent大会一向是云计算、人工智能等前沿技术应用与探索的风向标。对于AI Agent带来的变革性影响,亚马逊云科技也在今年re:Invent大会上带来全新的思考与洞察。
正如亚马逊云科技 CEO Matt Garman所言,AI Agent就行云计算一样具有变革性,而Agentic AI时代正加速到来。为此,亚马逊云科技发布一系列新服务,将从AI基础设施、推理平台、数据和Agents 工具等方面推动Agent在行业中的深度应用。

亚马逊云科技 CEO Matt Garman
AI工厂:将AI部署在本地
在AI 基础设施方面,今年大会一项重要服务的发布无疑是:AWS AI Factory。亚马逊云科技希望通过AWS AI Factory,将专用的全栈AI 基础设施直接部署到客户现有的数据中心内。
Matt Garman介绍,AWS AI Factory结合了NIVIDIA GPU、AWS Trainium 芯片、高速低延迟网络以及Amazon Bedrock 和 Amazon SageMaker等核心AI 服务。
不同于过去Outposts等机架设备,AWS AI Factory是一个完整的全栈技术方案,包含了从芯片、基础设施、AI模型、AI平台等一系列产品。借助此服务,用户可以利用自身的设施、电力和网络连接,AWS 则负责部署、运维和生命周期管理,类似获得私有AWS Region。
亚马逊云科技此举意义重大。AWS AI Factory的好处在于提供了一个经过验证、产品成熟的全栈AI方案,更可以持续迭代,与亚马逊云科技基础设施保持同样的水准。
众所周知,有不少行业积极看重安全与合格性,又渴望能够快速部署和应用AI。但大部分行业用户并不缺乏基础设施,却唯独缺少切实可行、可用于生产环境的大规模人工智能部署路径 。例如,数据质量、模型部署、安全治理等方面挑战极大,绝非简单将众多产品与工具拼凑就能够解决的,而AWS AI Factory全栈方案的到来,意味着用户可以屏蔽AI基础设施等方面的复杂性,大幅缩短部署周期和降低运维管理的难度,借助AWS丰富的经验实现AI在本地的部署与应用。
Trainium3 UltraServers,专为AI应用而来
随着AI的火爆,AI芯片也成为当前市场最为热门的话题。除了NVIDIA、Google之外,亚马逊云科技也是AI芯片领域重要的玩家。其Trainium芯片经过多年的打磨迭代更新,正逐步展现出极其强大的能力。
在本次大会上,亚马逊云科技正式发布了 Amazon EC2 Trn3 UltraServer,该超级服务器采用3nm Trainium3 AI 芯片。Trn3 系统可在单个 UltraServer 中最多扩展多达 144 个 Trainium3 芯片;与 Trainium2 相比,可提供高达 4.4 倍计算性能、4 倍能源效率和近 4 倍内存带宽。

在大会上,亚马逊云科技也展示了Trainium3 UltraServer在开源权重模型 GPT-OSS等系列测试的成绩,无论是推理响应速度、单芯片吞吐,还是训练与成本等均取得了业界领先的成绩。
根据Matt Garman介绍,Trainium3 UltraServer专门为AI、混合专家模型和大规模强化学习等工作负载设计,并且针对训练和企业在生产环境中日益繁重的推理负载都进行优化。

此外,亚马逊云科技还预览了Trainium 4芯片的情况。Trainium 4芯片将比Trainium 3的计算能力提升八倍,内存贷款也将大幅增加。
除了自家AI芯片之外,亚马逊云科技还推出全新 P6e-GB300 UltraServers,该服务器采用GB300 NVL72平台。GB300是目前NVIDIA最先进的AI芯片,主要针对生产环境中的万亿参数 AI 推理和高级推理模型。
Nova 系列模型服务上新
去年大会上,亚马逊云科技发布了多模态基础大模型Nova系列。经过一年的迭代与创新,亚马逊云科技在今年大会上正式发布了下一代 Nova 2 Lite、Nova 2 Pro 和 Nova 2 Omni等系列模型。根据基准测试表明,Nova 2系列模型可以与 Claude 3.5、GPT-4.5 和 Gemini Flash 2.5等模型的能力媲美。
众所周知,当前市场中拥有众多大模型,并且模型能力也在持续迭代更新。但对于行业用户而言,构建一个全新的模型需要付出昂贵的成本,而基于某个大模型+自身数据训练出一个更符合自身业务环境的模型,正是当下众多用户的强烈需求。
不过,很多企业在训练或者微调模型时会遇到不小瓶颈,即吸纳专有数据越多,模型越容易“忘记”其原始训练数据的情况,这种模型的“退化”实际上会对模型在实际生产环境中有所影响。
因此,亚马逊云科技在今天大会上宣布了一项开创性的服务:AWS Nova Forge ,允许企业用户基于Nova系列模型来训练和构建自己的AI模型。该服务提供对 Nova 模型预训练、中期训练和后期训练阶段的检查点的独家访问权限,用户可以在训练过程的早期阶段(即 Nova 内部的检查点)注入专有数据,并与亚马逊云科技精心挑选的数据集进行协同训练,实现模型的最佳训练,并且确保模型不退化。
除了数据协同训练之外,AWS Nova Forge还具备多项强大的功能和安全措施工具,以确保企业用户以更低成本和安全地创建与训练模型。
新工具,让Agent更好服务生产环境
如果说Nova Forge聚焦的解决企业在训练和微调大模型底层挑战,那么 Amazon Bedrock AgentCore则是让Agent更好在生产环境用起来。
众所周知,AI Agent的运行、协作往往会涉及到众多基础模型(OpenAI、Google Gemini或者Nova等等)和一众框架(LlamaIndex、Google ADK、OpenAI Agents SDK等等),加上A2A等协议和各种应用数据,其要在生产环境中真正用起来需要解决众多底层问题。
而Amazon Bedrock AgentCore作为Agent 平台,其核心目的就是帮助企业用户大规模地安全构建、部署和运行高性能代理。利用Amazon Bedrock AgentCore,企业用户可以实现Agent跨工具和数据执行炒作,且支持广泛的基础模型和框架,并确保安全性和可靠性。
在今天大会上,Amazon Bedrock AgentCore 的功能得到了进一步增强。亚马逊云科技推出了Amazon Bedrock AgentCore Policy和Evaluations两项新功能。
当前,Agent的安全性挑战巨大,尤其是是身份策略、安全操作、数据访问等方面。Amazon Bedrock AgentCore Policy核心在于通过Agent运行的实时、确定性控制措施,来确保组织未经授权的操作。无疑,AgentCore Policy就像是给Agent设定了清晰的边界,可以有效遏制未经授权的数据访问、不当交互和系统级错误等。
AgentCore Evaluations则是帮助企业了解Agent的行为和结果,该服务简化了以往确保Agent质量所需的复杂流程和基础设施,开发人员还可以使用自身偏好的大型语言模型和提示词来编写自定义评估器。
除此之外,亚马逊云科技还推出了Kiro、DevOps Agent、Security Agent、Quick等一系列 Agent。
综合观察
综合来看,亚马逊云科技对于Agentic AI有着极为深刻的洞察和丰富的实践。
随着AI Agent的强势爆发,AI Agent未来必然将彻底颠覆企业的组织架构、业务流程和用户体验。这意味着,让更多Agent融入到生产环境,以及Agent之间更好协作,将成为企业接下来数智化转型升级的一道必答题。而亚马逊云科技此次提出AI Agent如何用起来和用好的清晰路径,无疑对于Agent未来在企业中的持续落地带来巨大的参考。
此外,亚马逊云科技年收入达到1320亿美元之际,其技术产品创新能力依然强悍,在本次大会上一口气发布了25——核心服务更新,涵盖从芯片、大模型到Agent 平台、工具。面向未来,随着AI Agent与与场景的深度融合,亚马逊云科技以全栈AI创新,必然会推动用户们全面拥抱Agent的变革时代。
