不一样的IT生态思维

数智融合,开启云上数据“深加工”的增值模式

无处不在的数据应用正在每一个行业发挥着收集、分析、萃取、转化信息的能力。

数据是云时代的石油,数据也是数字化转型的生产要素。

无论人们为数据授予哪一种殊荣,实际上也在同步确定一种趋势:通过对数据的挖掘和运用, 正在促进新一波以数据驱动的生产率增长。

数据“深加工”的内核价值持续显现

如果说大数据的战略价值,在于向数据本身的管理与转化要“生产”结果。那么,其中的一项重点便是如何提高对数据有效的“深加工”,进而实现数据的“增值”。

由此,大数据技术与智能技术的相融相合即是这场数据“深加工“的内核所在。

多数企业坚信,大数据技术和机器学习技术本身互为因果,因为大数据技术所提供的能力是机器学习建模所需要的必然基础。反之,机器学习也能够为大数据技术提供更智慧的能力,为商业业务产生价值。

据福布斯调研显示,如果成为一个数据驱动型公司,收入即会增加20%,同时成本会减少30%。而数据如果要得到充分智能发挥,不仅业务数据会加速驱动公司业务升级,同时也会在战略上将其带入更高层级。

基于这一判断,企业希望能够通过大数据和机器学习能力融合机制提供业务产出,以充分发挥数据的价值。

例如,大数据技术需要机器学习的模型能力补充自身的分析能力;再例如,大量企业需要面向数智能力构建统一的开发和技术基础,这样做一方面能增加机器学习相关场景和能力,二是能够打造兼备大数据与机器学习能力通用平台。

亚马逊云科技大中华区产品部总经理陈晓建

在亚马逊云科技大中华区产品部总经理陈晓建看来,大数据与智能技术的路径长久以来是平行的,但数智融合的趋势又加速推动两者交汇,进而共同发挥对数据的“深加工”能力。

而这一趋势同样面临着三个挑战:

第一,数据和机器学习分而治之,数据及技术孤岛制约敏捷迭代。

例如,汽车企业数据源自于生产制造环节以及行车环节(用户数据),两者又分别归属于这制造部门与运营部门。在同企不同源的状态下,各数据仓库对机器学习,造成了时间与计算成本的负担。

第二,数据处理能力亟待提升。例如,在生产制造企业,机器学习帮助客户对产品售后维修需求进行预测,由被动响应变为主动规划。但由于不具备足够的大数据处理能力,模型开发成功后,其不能够有效收集处理海量的运营数据,无法达到预期业务目标;

第三,数据分析人员与技术能力需要升级。例如,企业生产环境的复杂性相较于模型的实验环节,更需要精准、科学且完备的数据分析能力做支撑。

那么,如何在贴合用户需求的同时,充分实现数智融合?

亚马逊云科技给出的答案是:在云中打造统一的数据基础底座,实现大数据和机器学习的“双剑合璧”。

陈晓建强调,理想的统一融合数据底座,要正确沿着两条关键路径展开布局落地:

首先,建立统一融合的治理底座,这一底座集合数据权限、数据开发、数据工作流、可视化等数据管理应用能力;

其次,大数据和机器学习之间应该做到高效充分的双向互动,互为支撑,互为因果,形成正向循环。

“从两条路径中不难看出,大数据与人工智能两个独立的技术不会孤立,而是相互融合,双向借力,进而对数据实现有效的提炼,加工转化”。陈晓建如是说。

实际上,如果要充分发挥两条关键路径的价值,三项工作必不可少:一是用户需要做到统一数据共享,由此让数据资产化,打破数据孤岛;其次,数据要能够在统一权限管控下,让用户具备完善的权限控制能力,让数据在不同业务系统之间流转;第三,用户需要通过统一开发及流程编排,融合端到端的大数据和机器学习任务,提升整体的开发效率。

而深入到实际的应用场景,亚马逊云科技被业界津津乐道的“智能湖仓”架构,即是对数智融合的最佳呼应。“智能湖仓”可以将亚马逊云科技的数据服务无缝集成,并打通数据湖和数据仓库之间数据移动。同时进一步实现数据在数据湖、数据仓库以及在数据查询分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。

“智能湖仓”架构助力“数据深加工”

在亚马逊云科技大中华区产品部技术专家团队总监王晓野看来,企业在现代化数据应用场景中,需要的不是单一的产品,而是需要灵活开放的架构,通过可扩展、安全可靠的数据服务,专门构建带来高效分析的数据分析引擎,并利用AI工具为企业提供极致的性能。

基于实际场景,亚马逊云科技通过两个核心的“智能湖仓”架构产品,印证了企业在大数据和AI或者机器学习融合中所发挥出的“数据深加工”的能力。

第一类企业,其机器学习能力完全诞生于大数据团队,其最乐于通过亚马逊云科技Amazon EMR来简化大数据的处理 。

原因有两个:一是Amazon EMR能够提供与开源框架完全兼容的技术能力。

二是Amazon EMR通过灵活扩展能力,以及在云端采用Amazon Graviton 2自研芯片,在带给企业完全开源兼容性的同时,大幅实现性能和成本的提升。

第二类企业创新起步于深度学习,例如图像识别、语音识别等机器学习项目。Amazon SageMaker便迎合了这类企业的需求,Amazon SageMaker可为其提供从数据标记、内置算法、高效的模型训练、灵活的模型部署以及端到端的机器学习能力。

王晓野表示,随着数智融合趋势加速深入行业场景,“智能湖仓”架构在朝着深度智能加速升级的同时,也在具体的技术层面展现了新的能力:

首先,亚马逊云科技加速构建云中统一的数据治理底座,打破数据及技能孤岛。

亚马逊云科技通过帮助客户构建统一的数据治理底座,实现了大数据和机器学习的数据共享,数据权限的统一管控以及两者统一的开发和流程编排。

王晓野看来,数据底座的首要挑战,即是要面对数据的可用性以及数据在不同部门之间如何实现发现利用。

而云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。

其中,Amazon Lake Formation所推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制;

Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。

其次,亚马逊云科技通过助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。

机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。

其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 值得一提的是,在去年re:Invent期间,亚马逊云科技宣布了几大数据产品无服务器的功能,这其中包括了通过Amazon Redshift Serverless实现无集群管理,这样就可运行和扩展数据探索加工能力的Amazon Redshift数据仓库,也包括了能在云中轻松运行PB级数据计算的Amazon EMR数据处理框架无服务器运行方式。对于实时的数据处理,也提供了像Amazon MSK,就是托管的Kafka服务、无服务器的能力,真正实现让客户关注于如何使用开源的Kafka进行实时的数据分析,而不去关注底层的集群搭建。

第三,亚马逊云科技还通过实现数据分析智能化,赋能业务人员探索创新。

亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。

例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。

亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。

IDC中国助理研究总监卢言霞表示:“根据IDC 2022年中国人工智能及自动化市场的十大预测,人工智能将无处不在。到2022年,60%的中国1000强公司将在所有关键业务的横向职能中扩大使用AI/ML,如营销、法务、人力资源、采购和供应链、物流等。由于机器学习更加依赖算力、算法、数据,人工智能的快速发展拉动了对AI基础数据服务的需求,预计在未来几年内将稳步增长。在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,通过云、数、智深度融合迎合市场需求,能够降低更多行业用户上云用数赋智的门槛,更好地开展云上数智融合之旅。”

“云、数、智”立体赋能业务增值

正如Joyme乐我无限数据研发中心总监杨飞所言,亚马逊云科技真正从 “云、数、智三位一体”服务组合优势上,帮助用户打破了数据及技能孤岛、机器学习由实验转为实践、赋能业务人员探索创新。

作为一站式内容变现服务平台,乐我无限已经遍布全球200多个国家,每月有超过3700万用户使用其所提供的服务平台,入驻的主播也超过100万。

如此庞大的用户量以及访问量,让Joyme乐我无限更加重视通过数智融合的方法论进行创新实践,并基于亚马逊云科技的云服务实现了业务升级:

在底层核心能力构建上,乐我无限利用Amazon S3这种对象型存储,解决了大规模结构化和无结构化数据的存储问题,利用其冷热备份和访问频次的访问机制,在成本和访问效率中间实现了折中优化;

第二,乐我无限利用Amazon Redshift和Amazon OpenSearch服务,解决了数据组织和管理的问题,方便下游用户更高效的访问。

第三,在数据计算层面,乐我无限大规模运用Amazon EMR高效地解决了数据处理的问并;利用Amazon SageMaker对各大伸缩学习平台的兼容能力;基于Amazon Lambda这种方式去开发整个主程服务,有非常好的扩展性和可用性;利用Amazon SageMaker完成整个在线AI推理和服务治理的问题。

“正是受益于这一系列的亚马逊云科技提供的核心基础服务,我们才能有效地去保证整个上层平台业务的稳定、高效运转”。杨飞如是说。

由此可见,亚马逊云科技的“云、数、智三位一体”的创新之力,不仅为企业数智融合提供了新的引擎,更进一步推动数据背后的大数据与机器学习发挥出实战价值。

赞(69)
未经允许不得转载:维端网 » 数智融合,开启云上数据“深加工”的增值模式
分享到

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

不一样的IT生态思维

联系我们