Alluxio AI全新产品发布:无缝对接低成本对象存储AI训练解决方案

原创
2023/10/19 17:59
阅读数 23

下一代解决方案显著加速端到端 ML工作流

模型训练提速高达20倍

模型服务提速高达10倍

 GPU利用率实现2-4倍提升


Alluxio作为一家承载各类数据驱动型工作负载的数据平台公司,现推出全新的Alluxio Enterprise AI高性能数据平台, 旨在满足人工智能 (AI) 和机器学习 (ML) 负载对于企业数据基础设施不断增长的需求。Alluxio Enterprise AI 平台可综合优化企业AI和分析基础设施的性能、数据可访问性、可扩展性和成本效益,助力生成式AI、计算机视觉、自然语言处理、大语言模型和高性能数据分析等下一代数据密集型应用的发展。


为保持竞争力并在竞争中脱颖而出,各家企业都在全力推进数据和AI基础设施的现代化。在此过程中,企业家们也意识到传统的数据基础设施已经无法匹配下一代数据密集型AI负载的需求。在AI项目推进中经常遭遇各类挑战,诸如性能低下、数据可访问性差、GPU稀缺、数据工程复杂以及资源未充分利用等,都严重妨碍了企业获取数据价值。Gartner研究称:“可操作AI的价值在于能够在企业的各种环境下进行快速开发、部署、调整和维护。考虑到工程复杂性和更快的市场响应需求,开发较为灵活的AI工程数据流,构建能够在生产中进行自适应的AI模型均至关重要” ,“到 2026 年,采用AI工程来构建和管理自适应AI系统的企业,将在AI模型可操作性方面至少超越同行 25%。”

此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI和Alluxio Enterprise Data,全面满足分析和AI的多样化需求

Alluxio Enterprise AI作为一款全新产品,建立在Alluxio企业版多年积累的分布式系统经验上,采用了针对AI/ML负载优化的新架构。Alluxio Enterprise Data 是 Alluxio 企业版大数据方向的下一代版本(与Alluxio Enterprise AI平行),并将继续成为专注分析负载企业的理想选择。


加速端到端机器学习工作流

Alluxio Enterprise AI 使得企业的AI基础设施能够在现有数据湖上实现高性能运行、无缝数据访问、可扩展且经济高效。它能帮助数据和AI领域的领导者和从业者实现AI项目的四个关键目标:

1

高性能模型训练和部署,快速产生业务成效;

2

跨区域和跨云负载可无缝访问数据;

3

可无限扩展(已在互联网巨头内部严格测试);

4

无需使用昂贵的专用存储,在现有技术栈上即可部署,确保投资回报最大化。

企业使用 Alluxio Enterprise AI后,预期训练速度可比使用商业化对象存储快20倍,模型服务速度提升高达10倍,GPU利用率达90%以上,AI 基础设施成本节约高达90%


Alluxio Enterprise AI 拥有去中心化元数据的分布式系统架构,可消除访问海量小文件(常见于AI 负载)时的性能瓶颈。无论文件大小或数量如何,都能确保具备超越传统架构的无限扩展性。与传统分析不同,分布式缓存是根据AI负载I/O模式量身定制的。此外,还支持分析负载以及从数据摄取到ETL(提取、转换、加载)、预处理、训练和服务的完整机器学习工作流


Alluxio  Enterprise AI 包含以下重要特性:

性能出色的模型训练和模型服务

Alluxio Enterprise AI 显著提升企业在现有数据湖上的模型训练和服务性能。用于模型训练的强化API 集可实现优于商业化对象存储20倍的性能。对于模型服务,Alluxio提供超高并发性,在将离线训练集群中的模型用于在线推理时实现高达10 倍的速度提升

适合AI工作负载I/O模式的智能分布式缓存

Alluxio Enterprise AI的分布式缓存功能使得AI引擎能够通过高性能Alluxio缓存(而非缓慢的数据湖存储)来读写数据。Alluxio的智能缓存策略专门针对AI引擎的I/O模式量身定制,包括大文件顺序访问、大文件随机访问和海量小文件访问。该优化帮助需要大量数据的GPU实现高吞吐和低延迟。训练集群持续从高性能分布式缓存中获取数据,可实现90%以上的GPU利用率

跨本地和云环境的AI 工作负载实现无缝数据访问

Alluxio Enterprise AI为企业提供了统一的管理界面,可以轻松管理跨不同基础设施环境的 AI 工作负载该产品为机器学习工作流提供了真实的数据源,从根本上消除了大型企业数据湖孤岛的瓶颈。通过Alluxio Enterprise AI这一标准数据访问层,企业可以在不同业务部门和地理位置之间实现数据的无缝共享。

经过大规模严格测试的全新分布式系统架构

Alluxio Enterprise AI 平台构建在创新的去中心化架构 DORA(去中心化对象存储库架构)之上。该架构为AI工作负载提供了无限扩展的基础,允许AI平台通过包括Amazon  S3在内的商业化对象存储处理多达1000亿个对象该新架构借助Alluxio在分布式系统方面的成熟专业知识,解决了系统可扩展性、元数据管理、高可用性和性能方面不断增长的挑战。


在机器学习工作流中部署Alluxio

Gartner 研究显示,数据可访问性和数据量/复杂性是组织应用AI技术中遇到的三大难题之一Alluxio Enterprise AI可以添加到由AI计算引擎和数据湖存储组成的已有AI基础设施中。Alluxio 位于计算和存储中间,可以在机器学习工作流中跨模型训练和模型服务工作,从而实现最大速度和最优成本。例如,将PyTorch作为训练和服务引擎, Amazon S3为现有数据湖:

模型训练

当用户训练模型时,PyTorch数据加载器从虚拟本地路径/mnt/alluxio_fuse/training_datasets加载数据集。数据加载器不会直接从 S3 加载数据,而是从 Alluxio 缓存加载。在训练过程中,缓存的数据集将在多个epoch中使用,因此整个训练速度不再受制于访问S3而产生的瓶颈。也就是说,Alluxio通过缩短数据加载来加速训练,消除GPU空闲等待时间,提高GPU利用率。模型训练完成后,PyTorch通过Alluxio将模型文件写入S3。

模型服务

最新训练的模型需要部署到推理集群。多个TorchServe实例同时从S3并发读取模型文件。Alluxio会缓存这些来自S3的最新模型文件,并以低延迟提供给推理集群。因此,最新模型一旦可用时,下游的AI应用即可将其用于推理。


平台与现有系统集成

要将Alluxio与现有平台集成,用户可以在计算引擎和存储系统之间部署Alluxio集群。在计算引擎侧,Alluxio 可与 PyTorch、Apache Spark、TensorFlow 和 Ray 等流行的机器学习框架无缝集成。企业可以通过 REST API、POSIX API 或 S3 API 将 Alluxio 与这些计算框架集成。


在存储侧,Alluxio 可连接位于任何位置(本地、云端或两者兼有)的各类文件系统或对象存储。支持的存储系统包括 OSS、COS、BOS、OBS、Amazon S3、Google GCS、Azure  Blob Storage、MinIO、Ceph、HDFS等。


Alluxio 可在本地和云端、物理机或容器化环境中运行。支持的云平台包括阿里云、腾讯云、百度云、华为云、AWS、GCP、Azure Cloud等。


软件下载

Alluxio Enterprise AI 下载方式:(扫码下载)


相关活动:AI Infra Day

在北京时间10月26日上午01:00(美西时间:10月25日上午10:00)的AI INFRA DAY上,Alluxio 将首次公开展示其最新发布的 Alluxio Enterprise AI


AI INFRA DAY是面向开发者的线上活动,主要探讨构建高性能、可扩展且经济高效的AI基础设施所面临的挑战及不同方案。特邀嘉宾包括Wanchao Liang(Meta)、Sally(Mihyoung) Lee(Uber)、Jordan Plawner(Intel)和范斌、Adit Madan、唐春旭、邱璐(Alluxio)。活动现已开放报名:


关于Alluxio

Alluxio 是全球领先的针对分析和AI的高性能数据平台提供商,可加速企业AI产品价值变现,并最大化基础设施的投资回报率。Alluxio数据平台位于计算与存储系统之间,能够在数据工作流的各个阶段为数据平台上的工作负载提供统一视图。无论数据位于何处,该平台均可提供高性能的数据访问,简化数据工程,提高GPU利用率,并降低云计算和存储成本。企业无需使用专用存储,即可大幅加速模型训练和模型服务,并在现有数据湖上构建AI基础设施。


Alluxio在头部投资者的支持下, 为全球科技、互联网、金融和电信企业提供服务,目前全球排名前 10 的互联网公司中有 9 家在使用Alluxio。了解更多信息,请访问 www.alluxio.com.cn。


精选智库

本文分享自微信公众号 - Alluxio(Alluxio_China)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部