AI时代的数据革命,分布式融合存储为何堪当大任?

玩数据还有点懒 2025-03-01 04:44:07

在AI浪潮的驱动下,未来几年数据存储容量的需求将激增150%。目前大型企业平均持有150PB的数据,预计到2026年底存储的数据将超过300PB。

根据这项研究,31%的IT领导者表示,数据存储容量激增是必须面对的一大挑战;76%的受访者表示,一半以上的数据是非结构化的数据。另一方面,随着AI应用的扩展,数据的价值将会增加,导致企业需要存储更多的数据,并且数据存储的时间更长。

AI时代的数据革命

近年来,分布式融合存储市场的整体增长速度明显更快。

究其原因,以大数据、AI为代表的新应用场景兴起是关键所在。这些新应用、新场景均需要大量应用到非结构化数据。Gartner预测,到2025年,人工智能将成为推动基础架构决策的最主要因素之一,这将导致基础架构需求增长10倍。

如果说过去十年里,AI应用的兴起首先带来了算力的革命,让多元异构算力成为大势所趋,智算中心成为数据中心建设方向;那么,未来十年,随着AI应用的深入,数据规模的持续增大,一场数据革命即将到来,将对数据基础设施的发展带来深远影响。

首先,以AIGC为代表的AI大模型应用正在加速走向多模态。例如,OpenAI GPT-5开始就是多模态大模型,这意味着音视频等数据将会接入,数据集迎来指数级的增长,对于数据存储的需求也会产生根本性的影响。

AI大模型会对数据基础设施带来根本影响:其一、大模型走向多模态,筛选后的数据集就达到PB级,而筛选前的数据量会更加惊人;其二,大模型应用走向深入,意味着海量终端的接入,带来大量推理需求,对于数据基础设施的延时要求会越来越高。

其次,各大行业的AI应用逐渐进入纵深阶段,对于数据存储的性能将会极度渴望。例如,L2级自动驾驶普及率正在提升,从L2到L3进阶时,对于训练的性能要求越来越高;又如,车路协同场景的出现,进一步加速了数据基础设施的性能要求。

数据存储,AI生态链的重要一环

AI时代,数据质量决定着AI演进的高度,以存力基础设施变革为代表的数字底座升级正式开启。

AI对存储的影响将是深远的和持久的。从从存储的容量和性能提升,到智能数据管理和优化资源分配,到增强的安全性和存储效率,以及存储能耗的改善,AI将从根本上改变企业感知和利用存储系统的方式。

随着人工智能应用的加快,企业对于数据存储的需求日益增加,面临的挑战日益严峻。

一是数据量呈爆发式增长。根据IDC的数据,目前全球人均日产生数据从2024年10GB,将发展到2034年的100GB,全球数据总量将超200ZB。而LLM的应用又推高Token需求,兼顾成本的高容量数据存储势在必行。

二是数据存储高可扩展需求日益紧迫。一个有效的数据存储系统必须既可扩展,又经济实惠,这两个属性在数据存储中总是共存的。从历史上看,高度可扩展的系统在成本/容量方面更加昂贵。如果大型AI数据集超出存储预算,则是不可行的。

对象存储是可以在单个命名空间内无限扩展的存储类型。此外,模块化设计允许随时增加容量。组织可以按需扩展。对象存储构建在业界成本最低的硬件平台上,将其与低管理开销和节省空间的数据压缩功能相结合,成本比传统的企业磁盘存储低70%。

三是数据安全与数据存储共同发展。尤其是端侧AI,人们对数据的掌控欲愈发强烈,隐私保护、数据完整性,成为AI发展关注的重点。为此,在数据存储系统中,企业的解决方案往往都带了保护数据完整性的安全措施。

一些存储供应商开始利用人工智能和机器学习来防止数据丢失,通过智能数据恢复和系统化备份策略提高可用性,并加快停机期间的周转速度。

四是数据效率和功耗效率也不容忽视。要让AI大语言模型能高速完成计算,就需在最短延迟内实现数据的存储与读取,像低延迟、及时响应、节省成本以及优化资源和数据放置等技术,都成为AI时代的关键考量。

另外,功耗效率亦是重中之重。在AI基础设施竞赛中,虽然核电厂建设被包括AWS、谷歌、微软等广泛提及并加入投资者行列,但实现数据存储系统高效且低功耗才是关键,不仅能降低成本,还能延长设备寿命,无疑是存储产业进军AI领域的重要方向。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:1

玩数据还有点懒

简介:感谢大家的关注