占预算仅20%，却是影响算力性能的关键

开钫 · 发表于 2024-2-27 17:45:01

戴尔科技解决方案架构师林小引

ChatGPT迅速火爆全球后，人工智能进入了“暴力美学”时代。所谓暴力美学就是我们把模型的架构做到了超大规模，把算力的需求做到超大规模，训练的数据做到超大规模。

如果说算力是人工智能发展的引擎，那么数据就是人工智能发展的燃料。AI应用的核心是高质量数据，数据的质量又决定着算法的性能、泛化能力和应用效果，而高质量数据的得到又与存力（即数据存储能力）息息相关，存力是释放数据价值必不可少的关键因素。

但目前，从业界AI项目的建设情况看，“重算力、轻存力”的现象较为明显，大部分用户非常看重GPU等算力资源的部署，却往往忽视了存力建设的重要性。

其实按照英伟达的官方资料显示：一个AI数据中心购置预算的构成中，存储仅占20%。但恰恰是这20%的存储往往成为限制AI算力性能和AI团队效率发挥的瓶颈。

那么今天，我们就来谈一谈用于人工智能的存储该如何选型。而在选型之前，我们不妨先来了解一下深度学习的数据流是怎样的？以及对存储有哪些挑战？

深度学习的数据流

以AI的训练为例，首先，外部数据经过收集后，会注入到原始数据的存储中。在这里，数据会经过大量的数据清洗、数据转换、数据增强、数据标准化、数据打标签等数据预处理工作，然后通过元数据管理、数据分片等数据组织工作将预处理数据转换为训练数据。

算力集群分批读取训练数据馈入AI模型的神经网络，经过一系列的前向传播、反向传播、梯度下降来训练模型，并通过对模型性能的评估来进行迭代，这其中包括改变模型参数、调整模型架构或者更换优化器等，最终得到一个预训练模型并保存在模型仓库中。

在这个过程中，通常需要耗费大量的时间和计算资源。由于训练时间较长，如果训练过程中出现异常或不得已而中断了训练，通常使用checkpoint来保存当前的模型状态，以便在下一次训练时，可以从这个保存的状态继续训练，而不需要从头开始。

此外，在一些特定场景或者计算资源不足的情况下，还可以直接对预训练模型做微调，此时需要少量的有标签微调训练数据。那么在这样一个复杂的流程和海量数据规模下，如何对AI存储进行选型呢？

AI存储选型的挑战

挑战一

存储性能“卡脖子”

AI存储选型的第一大挑战就是存储性能不能成为瓶颈。

在以上流程中，预处理数据的存储和训练数据的存储是对性能要求最高的。如果这两部分的存储性能不够，会导致算力集群中的GPU和CPU资源利用率降低。而算力成本占据了整个数据中心成本的70%，算力利用率的降低就是对资源极大的浪费。

戴尔科技集团的PowerScale存储在支持人工智能应用的高性能方面具有多个特性，这些特性使其成为AI工作负载的理想选择。具体来说：

1、增强的AI性能：PowerScale通过与NVIDIA DGX SuperPOD的验证合作，增强了OneFS软件的功能，使得企业能够更快地准备、训练、微调和推理AI模型。同时PowerScale将是唯一一个经过NVIDIA DGX SuperPOD验证的以太网存储。

2、高性能存储：PowerScale节点提供了高性能存储，特别是NVMe PowerScale节点，这为需要快速读写大量数据的AI应用提供了强有力的支持。并且，PowerScale通过了NVIDIA GPU Direct Storage认证，该存储与GPU直通功能，可在存储和GPU之间直接进行数据传输并提升2-8倍的带宽，降低3.8倍的端到端延迟，同时减轻了AI服务器CPU和内存的消耗。

3、高度弹性：PowerScale具备高度弹性，能够根据企业的需求伸缩自如，简捷如一。这意味着它可以根据AI工作负载的变化动态调整资源，保持高效的运行状态。

4、智能横向扩展功能：PowerScale具有智能横向扩展功能，有效地分配资源，帮助客户在集群中获得最优化的性能，这对于需要处理大规模数据集的AI应用尤为重要。

挑战二

存储架构太复杂

AI存储选型的第二大挑战是存储不能太复杂，需要尽可能简化数据流动过程中存储的处理。

我们可以看到AI数据的存储有很多个，包括原始数据存储、预处理数据存储、训练数据存储等，有的AI场景甚至还会包括一些辅助工具所需的存储，比如RAG应用中向量数据库的存储，数据预处理（如Spark）和大数据分析（如Hadoop）使用的HDFS/S3存储等。

在现实中，一方面，数据科学家团队和数据工程师团队往往会按照自己的需求采购存储。而另一方面，按照英伟达建议的AI数据存储架构，存储是按照存储容量和性能进行分级的。

当以上两个因素叠加起来，往往就会形成多个数据存储竖井——不同品牌、不同种类的存储混杂在企业内部，而这种混杂带来几个维度上的复杂性：

数据管理

○相同的数据在不同的存储中存放的位置不一致

○数据治理环节需要管理多个元数据

存储效率

○无法跨越多个存储进行全局统一的冷热自动分层调度

○无法跨越多个存储实现全局统一的数据去重

○如果存储有压缩功能，数据每进出一次存储就会有一次压缩/解压缩，跨多个存储调度数据需要多次进行压缩/解压缩，浪费存力

存储运维

○不同的项目组对数据的访问权限不同，需要对多个存储设置相关访问权限

○跨越多个存储无法实现统一的快照策略，需要单独维护每个存储的快照策略

○跨越多个存储无法实现统一的数据容灾保护，需要单独为每一个存储提供复制保护

作为横向扩展文件存储系统，Dell PowerScale通过OneFS操作系统，可以为不同类型的AI数据提供统一数据湖支持：包括统一的数据管理和命名空间、统一的多组合和权限控制、统一的元数据管理、统一的基于策略驱动的冷热自动分层、统一的在线数据去重压缩功能、统一的数据快照、复制功能。

并且，Dell PowerScale还提供了多协议支持，可以满足人工智能中不同数据源和应用程序的需求，同时简化了数据的管理、提升了存储的效率并降低了运维的成本。

挑战三

存储安全要保证

AI存储选型的第三大挑战是存储需要安全可靠，能提供对关键数据资产的安全可靠保护。

在AI场景下，有几类数据资产是非常宝贵的：

●高成本的训练数据

●长周期训练的Checkpoint

●高价值的AI模型成果

Dell PowerScale在保护数据安全方面具备多种特性：首先，PowerScale提供了内置的安全功能，包括数据加密、访问控制和安全审计等。这些功能可以保护数据免受未经授权的访问和泄露，确保数据的机密性和完整性。

其次，PowerScale还具备强大的容灾和恢复能力。它可以通过快照和克隆等技术，实现数据的快速备份和恢复。同时，PowerScale还支持远程复制和同步，可以在不同地理位置之间实现数据备份和容灾，确保数据的安全性和可用性。此外，PowerScale还提供了多租户功能，可以实现不同租户之间的数据隔离和安全控制，以满足多用户环境下对数据安全性和隔离性的需求。

最后，PowerScale还支持安全协议和标准，如SSL/TLS等，可以与各种应用程序和系统无缝集成，确保数据的安全性和可靠性。

除了传统的数据安全保护机制外，针对时下非常疯狂的勒索病毒攻击，Dell PowerScale也提供数据避风港保护方案来防护人工智能数据。

总结来看，Dell PowerScale存储在人工智能中可以发挥关键作用，尤其是在处理大规模非结构化数据和提高AI工作负载效率方面，PowerScale具备以下六大优势：

1、处理非结构化数据：随着数据量的爆炸性增长，其中大部分数据为非结构化数据。PowerScale存储系统专为处理这类数据而设计，能够有效地管理和存储大量的非结构化数据。

2、提升AI工作负载效率：PowerScale存储系统具有低延迟、高吞吐量和大规模并行I/O的特点，这些特性使其成为GPU加速计算的理想补充，能够有效压缩针对多PB数据集训练和测试分析模型所需的时间。

3、支持AI工作负载：戴尔科技集团致力于消除数据访问瓶颈，提供快速、高效且安全的数据访问技术，使得PowerScale成为适用于一般AI工作负载的存储优化型产品。

4、性能提升：基于最新一代PowerEdge服务器打造的新款PowerScale全闪存存储系统，将流式读取与写入性能提升达到2倍，这对于需要高速数据处理的AI应用来说是一个重要的优势。

5、满足人工智能中不同数据源和应用程序的需求：PowerScale支持多种文件协议、对象访问协议和大数据访问协议，可以与不同的操作系统和编程语言进行无缝集成，从而方便了不同用户对数据的使用和管理。

6、出色的数据安全性和可靠性：由于人工智能的数据涉及到许多敏感信息和隐私，因此需要保证数据的安全性和可靠性。PowerScale采用了多种加密和安全措施以及勒索病毒防护解决方案，可以确保数据的安全性和隐私保护。同时，PowerScale还具备高可用性和容错能力，可以保证数据的可靠性和稳定性。

综上所述，Dell PowerScale存储系统通过其高性能、高效率和专为AI优化的设计，能够在人工智能领域中发挥重要作用，帮助企业和研究机构更好地存储、管理和分析大量数据，推动AI技术的发展和应用。

		记住	找回密码
密码			立即注册

小编推荐

占预算仅20%，却是影响算力性能的关键

发表回复