AI与科技出海生态平台

亚马逊云科技:数据基座三大能力如何助力企业业务增长

如果说数据是AI应用的“食材”,那么用于存储、管理和处理数据的数据基座即是“食材”的加工厂。这一比喻不仅生动地描述了两者之间的关系,也突显了数据对于AI发展的关键作用。

“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。“亚马逊云科技大中华区产品部总经理陈晓建在于近日举办的,“无数据 不模型——生成式AI时代的数据基座”媒体沟通会上如是说。 

从数据基座中提升数据应用认知

事实上,数据基座的表现直接决定了企业在AI以及数字化转型进程中的竞争力,正如许多行业用户所言:通过建立和优化数据基座,可以更好地管理和利用数据资源,支持业务运营、数据分析、人工智能应用等各种场景,从而让企业在商业竞争中一展优势。

亚马逊云科技大中华区产品部总经理陈晓建

作为全球云计算的开创者和引领者,亚马逊云科技对于数据基座的建设与打造,已经形成了优质的资源与能力输入——在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”

无论是建立模型、进行分析、支持决策还是推动创新,数据都扮演着关键的角色。缺乏有效的数据支持,模型将无法准确反映现实情况或发挥预期效果,正所谓“无数据,不模型”!

“数据是企业在生成式 AI 时代取得成功的关键。每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。“陈晓建强调。

Perplexity正是将传统搜索,客户数据与大型语言模型的推理能力和文本转换能力相结合,产生了独特的价值。Perplexity是一家目前正在构建世界上第一个对话答案引擎的公司,自2022年12月推出以来,这家初创公司的网站和移动应用程序实现了快速增长,每月吸引了1000万用户,仅在11月就有5300万的访问量。

值得注意的是,Perplexity是在没有依靠口耳相传和在线讨论的情况下对传统营销进行大量投资的情况下实现这一目标的。

而亚马逊打造的Rufus,则精准对应了数据与模型相结合的优势能力,其作为一款以生成式AI为核心的专业购物助手,能够解答客户的购物疑问、提供产品比较,并根据对话情境进行推荐。它为亚马逊商城超过2亿的Prime 会员提供服务,在提升客户体验的同时也会产生大量新的数据。

那么,企业如何通过自身数据定制生成式AI应用呢?其主要有三种方式:检索增强生成(RAG)、微调和持续预训练。

而这些方式适用于不同场景:检索增强生成(RAG)——结合企业知识库、数据库等与生成式AI模型,实时检索内部相关数据,提高生成结果准确性和信息量。适用于知识时效性、隐私保护等场景。

微调——使用与目标任务相关的高质量数据对模型进行训练,提升特定任务性能。适用于角色理解、输入输出控制等场景。

持续预训练——利用企业专有数据对模型持续预训练,得到定制的行业大模型。适用于行业术语理解、数据合规等场景。

重要的是,在技术要求上,RAG需要向量检索,微调需要高质量数据集,而持续预训练则需要大规模、分布式清洗加工数据集的能力。这些方式为企业提供了灵活的选择,以满足不同应用场景下的需求和挑战。

三大核心能力成就企业数据价值

亚马逊云科技持续引领数据基座构建必备的三大核心能力,即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力,助力企业在生成式AI时代取得成功。

其一,利用现有数据支持微调或预训练模型的能力至关重要。

首先,在数据存储方面,Amazon S3的容量,安全和功能都满足微调和预训练基础模型对数据存储上的要求: S3拥有超过200万亿个对象,平均每秒超过1亿个请求。同时,Amazon S3支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本;

亚马逊云科技专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

在数据清洗方面,企业面临着繁重的数据清洗加工任务。Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。Amazon EMR serverless采用无服务器架构,它易用使用,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源,性能上拥有比开源快2倍以上的速度,且用户只需为使用的时间和资源付费,同时提供实时监控和跨AZ的高可用设计。

另外,Amazon Glue可以更快地集成数据,连接不同数据源并简化相关的代码工作。它还提供大规模自动化功能,通过Amazon Glue Studio提供可视化创作体验;具有无服务器执行引擎,可降低管理运维难度;其还提供基于Spark、Python和Ray这种广泛使用的框架,以方便开发者进行灵活构建。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。

Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。

其二,现有数据快速结合模型产生独特价值的能力必不可少。

从现有数据快速结合模型产生的能力上看,基础模型自身有一定的局限性:缺乏垂直行业的专业知识,缺乏时效性,生成错误信息以及用户敏感数据的隐私合规风险;用户期待生成式AI给出高质量答案,但简单的对话背后蕴藏着复杂的提示工程。通过提示工程获取模型介绍,从企业数据库获取用户背景信息,从RAG获取上下文,最后才是用户的问题及问题相关的提示词。

事实上,RAG场景的核心组件即是向量存储,现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。

而向量存储的理想情况,是将向量搜索和数据存储结合在一起。因为这样用户无需额外学习新的向量存储,无需添加额外的组件和费用,无需迁移现有数据,将向量检索和现有数据关联时也会有更快的体验。

“亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。我们预计,随着新用例的不断出现,我们在该领域的创新速度将迅速加快。”陈晓建如是说。

据悉,亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。通过将图和向量数据一直存储能够实现更快的向量搜索。

其三,在有效处理新数据上,助力生成式AI应用飞速发展的能力不容小觑。

在陈晓建看来,对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。

很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。

Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索。它能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景至关重要。

陈晓建强调,企业应结合无服务器的速度和生成式AI的力量快速占领市场。无服务器的速度加上生成式AI的力量,能够让企业快速交付以创新为重点的更智勇气应用程序和功能。

无服务器的优势体现在四个方面:减少繁重复杂运维,让企业集中精力于AI代码创新,闲时收缩资源以实现高性价比,还能够在需要时快速扩展消除性能瓶颈。

但是无服务器背后有复杂的工作,安全隔离,故障处理,负载均衡,自动扩展,利用率监控这些工作都考验着技术能力和团队经验,亚马逊云科技积累多年的丰富经验可以为客户提供令人信任的服务。为此,亚马逊云科技通过提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索,最大限度为企业减少运维负担和成本,消除性能瓶颈,使企业能够专注于生成式AI业务创新。

值得一提的是,Amazon Music通过分析用户和歌曲的特征,并将它们转换成向量以提高推荐精准度。Amazon Music已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,以为全球用户提供实时音乐推荐。Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,并能够处理每秒高达7,100次的查询峰值,有效支撑其推荐系统。

陈晓建强调,亚马逊云科技希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动企业的业务走向成功。

 

 

 

赞(12)
未经允许不得转载:维端网 » 亚马逊云科技:数据基座三大能力如何助力企业业务增长
分享到

AI与科技出海生态平台

联系我们关于维端

登录

找回密码

注册