无数据、不模型。

这是亚马逊云科技近日在媒体沟通会上提出的观点。

的确，在经历百模大战的洗礼之后，千行百业已充分意识到大模型所蕴含的巨大价值以及强大能力。但从一个基础大模型到最终在业务场景中发挥作用，企业依然面临着不小的挑战。这其中，数据能力看似不起眼，却是生成式AI时代把大模型用好的关键。

亚马逊云科技认为，利用现有数据支持微调或预训练模型、将现有数据快速结合模型产生独特价值、有效处理新数据助力生成式AI应用飞速发展是当前生成式AI时代重要的三大数据能力，通过三大数据能力可以构筑起生成式AI强大的数据基座。

正如亚马逊云科技大中华区产品部总经理陈晓建表示：“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”

数据是生成式AI取得成功的关键

当下，随着基础大模型市场的蓬勃发展，用户获取先进基础模型的门槛正在逐步降低。

从一开始大模型的诞生，就离不开大规模、高质量的数据集。如今，基础大模型正在尝试走入到千行百业之中，数据依然是绕不开的话题。

众所周知，每家企业自身积累的各种数据，是数字化中最大的差异化能力所在。如今，进入到生成式AI时代，如何利用自身数据结合基础大模型，恰恰是企业强化差异化能力的关键。

陈晓建介绍，通过Perplexity、亚马逊Rufus等真实案例的实践，数据是企业在生成式AI时代取得成功的关键。像Perplexity利用传统搜索引擎、客户数据与大模型的推理、文本能力结合，为大量用户产生了独特的价值。

事实上，当前数据与基础大模型结合的方式主要有三类：检索增强生成（RAG）、微调和持续预训练，不同方式适应的场景不同，对于数据能力的要求也不同。例如，持续预训练的数据集往往达到TB甚至更高的量级，并且数据本身多为原始格式数据，并不需要做太多预处理，但需要持续输入到大模型进行训练，以适应业务的持续变化。

亚马逊云科技介绍，三种数据与基础模型的结合方式是真正推动生成式AI应用的关键。目前，越来越多企业通过Amazon Bedrock来采用三种方式，进而逐步构建起生成式AI的强大数据能力和数字基座。

三大数据能力，让生成式AI走进现实

IDC预测，全球生成式AI市场年复合增长率将达85.7%，到2027年全球生成式AI市场规模将接近1500亿美元。越来越多的企业都在思考如何通过生成式AI创造更具竞争力的产品。

毫无疑问，建设自身的数据能力会成为生成式AI时代每家企业的标配。那么，生成式AI时代的数据能力主要包括哪些？企业又应该如何根据自身情况来建设？在亚马逊云科技看来，模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力、有效处理新数据来助力生成式AI应用飞速发展的能力是最为核心的三大能力，将是企业在生成式AI时代取得成功的关键所在。

具体来看，首先需要解决的就是海量数据的承载、清洗、加工与治理。众所周知，在多模态模型成为大势所趋的背景下，生成式AI应用往往需要海量、多元数据来训练、推理等。这就需要综合性的数据处理能力来支撑。例如，公开搜集的2TB英文数据集，经过清洗、去重后变成1.2TB数据，再经过分词处理成大约3000亿的tokens，整个过程涉及到繁重的数据清洗与加工任务。

针对海量数据的承载、清洗、加工与治理，亚马逊云科技通过Amazon S3、Amazon FSx for Lustre、Amazon EMR Serverless、Amazon Glue和Amazon DataZone等一系列数据产品组合，来帮助企业构建起强大的数据处理能力。以数据清洗、去重为例，涉及到大量的ETL工作，通过Amazon EMR Serverless 或者 Amazon Glue 可以高度自动化来完成数据清洗、去重至分词的各种操作，且无需关注底层资源的扩展、监控和管理等工作，效率大幅提升。

其次，将现有数据快速结合模型产生独特价值的能力也很关键。众所周知，基础大模型虽然能力强大，却也存在着缺乏垂直行业的专业知识、缺乏时效性（不知道最新发生的事情）、生成错误信息——幻觉问题以及用户敏感数据的隐私合规风险等缺陷。

为此，将现有数据快速结合模型至关重要。例如，在RAG场景中，向量嵌入很关键，需要将向量搜索与数据存储结合在一起，在无需添加额外组件和费用的情况，实现RAG。例如，亚马逊云科技已经在八种数据存储中添加了向量搜索功能，让客户在构建生成式 AI 应用程序时有更大的灵活性。像Amazon Neptune，将图和向量数据一起存储，内置算法实现几秒钟分析数百亿个连接。

第三，有效处理新数据，也会助力生成式AI应用飞速发展。目前从生成式AI应用的情况看，很多企业都反馈终端用户绝对大部分问题是类似甚至重复的，但基础模型频繁调用将会导致成本的增加和响应的延迟。因此，面对类似问题时，可以不调用模型，而直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

亚马逊云科技的思路是Amazon Memory DB、Amazon OpenSearch Serverless等产品，实现支持向量搜索的高速缓存，只需几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能。

在陈晓建看来，在生成式AI时代，数据能力的建设就类似一个飞轮，刚开始可能会遇到各种问题与挑战，一旦数据飞轮建立起来，并且运转起来之后，将会持续为企业在生成式AI时代带来巨大的价值。

“未来从基础模型训练到生成式AI应用构建的重要场景，涉及到海量多模态数据的处理、管理和应用。亚马逊云科技希望通过帮助企业构建三大数据能力，打造其强大的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。”

亚马逊云科技：生成式AI时代，构建数据基座乃关键

数据是生成式AI取得成功的关键

三大数据能力，让生成式AI走进现实

发表回复

数据是生成式AI取得成功的关键

三大数据能力，让生成式AI走进现实

为您推荐

Token怎么管、怎么用？天翼云交出“国云答卷”

启云见智：中国云数据库迈入“智用”新阶段

全球合规标杆：HOLLA Group的AI审核做对了什么？

发表回复