作者 :Franklin Aguinaldo, Ananta Khanal, Sid Misra, Tony Chen
日期 :2023年7月10日
来源 :[Amazon Elastic File System
(EFS)](https://aws.amazon.com/blogs/architecture/category/storage/amazon-
elastic-file-system-efs/),,,,,,,
分享链接 :
随着时间的推移,许多企业建立了本地服务器群集以积累数据,并随后采购更多的服务器和存储。他们通常会在本地计算机上开始机器学习(ML)旅程。不同企业对人工智能(AI)的投资阶段各不相同。有些企业完全保持在本地,有些则采用混合模式(本地和云),还有一些企业完全转向云计算来处理其AI和机器学习(ML)工作负载。
这些企业也在研究或已经开始使用云计算,以增强其本地系统,原因多种多样。随着技术的进步,数据的规模和数量也随之增加。捕获的数据量和数据点数量持续扩展,这给本地管理带来了挑战。许多企业分布在不同的地理区域、大洲和时区。尽管可以增加本地基础设施和网络带宽,但维护和保养仍然存在隐性成本。这些组织正寻求云计算,以转移部分工作负担,并利用云中丰富的人工智能和机器学习功能。
将ML工作负载迁移到云中需要一个全面的混合数据策略,明确何时及如何将本地数据存储连接到云。对于大多数企业来说,让云成为真相的源头是有意义的,同时仍然允许团队在本地使用和管理数据集。将云定义为数据集的真相源,意味着主副本将存储在云中,任何生成的数据集都将在同一位置存储在云中。这确保了数据请求能够从主副本和任何衍生副本中获取。
混合数据访问策略应考虑以下几个方面:
需求 | 描述 |
---|---|
理解当前与未来的ML存储需求 | 评估本地存储的情况和未来的扩展需求。 |
创建ML工作负载的地图 | 记录性能和访问需求,包括测试和训练需求。 |
定义本地与云之间的连接 | 包括支持站点间互联的东-西和南-北流量,必要的带宽和数据传输能力。 |
确定单一真相源(SSOT) | 确定ML数据集的主要存储位置,考虑如何存储过时、新的数据及热数据和冷数据。 |
定义存储性能要求 | 将存储性能需求映射到合适的云存储服务,使得能够利用基于云的ML服务如Amazon SageMaker。 |
为了解决这些挑战,我们概述了一个端到端的系统架构,如下图所示,定义了:1) 本地数据中心与 AWS 区域之间的连接;2) 本地数据到云的映射;3) 将 Amazon SageMaker 与适当存储对接,基于 ML 需求。

让我们逐步探讨此架构。
让我们深入了解 SageMaker 如何助力您的 ML 工作负载。
要开始将 ML 工作负载映射到云中,请考虑哪些 AWS 存储服务可以与 Amazon SageMaker 一起使用。通常情况下,Amazon S3 是用于 ML 的结构化和非结构化数据的中心存储位置。这包括来自上游应用的原始数据,以及作为功能存储一部分组织和存储的策划数据集。
在开发的初期阶段,SageMaker Studio 用户将利用 S3 API 从 S3 下载数据到其私有主目录。这个主目录是由 SageMaker 管理的 EFS 文件系统支持的。Studio 用户将他们的笔记本代码(存储在主目录中)指向本地数据集,并开始他们的开发任务。
为了扩展和自动化模型训练,SageMaker 用户可以启动在 SageMaker Studio 笔记本环境之外运行的训练作业。有多种选项可以使数据可用于 SageMaker 训练作业。
通过这个参考架构,您可以开发并交付在本地或云中运行的 ML 工作负载。您的企业可以继续在本地存储和计算特定的 ML 工作负载,同时也可以利用云计算资源,使用 Amazon SageMaker。云计算提供的规模允许您的企业在不担心容量的情况下进行实验。今天就开始在 AWS 上定义您的混合数据策略吧!
附加资源:
1 将来自多个来源的数据聚合到单一来源或位置的实践。
Franklin 是 Amazon Web Services 的高级解决方案架构师,拥有超过 20 年的开发和架构经验。他是应用现代化的 SME,并在无服务器和容器领域拥有专家级经验。
Ananta Khanal 是 AWS 专注于云存储解决方案的解决方案架构师,拥有超过 15 年的 IT工作经验,曾在不同公司担任多种角色,对云技术、基础设施管理、IT 战略和数据管理充满热情。
Sid Misra 是 Amazon 文件存储团队的高级产品经理。他在企业软件、机器学习、计算机视觉和无线通信方面拥有超过 15年的产品和工程团队领导经验。
Tony Chen 是 Amazon Web Services的机器学习解决方案架构师,帮助客户设计可扩展且可靠的机器学习能力。他曾是一名数据科学家和数据工程师,利用他的经验帮助解决组织在机器学习操作化过程中面临的最具挑战性的问题。
Leave a Reply