正确AI数据存储的6条标准

发布时间：2021-03-16 15:00:29 所属栏目：外闻来源：互联网

导读：选择存储前，企业必须首先考虑以下事项：成本。对于企业而言，AI数据存储的价格是关键因素。显然，最高管理层和采购决策人员都希望存储尽可能具有成本效益，并且在许多情况下，这将影响企业的产品选择和策略。可扩展性。我已经强调创建机器学习或AI模型需

选择存储前，企业必须首先考虑以下事项：

成本。对于企业而言，AI数据存储的价格是关键因素。显然，最高管理层和采购决策人员都希望存储尽可能具有成本效益，并且在许多情况下，这将影响企业的产品选择和策略。

可扩展性。我已经强调创建机器学习或AI模型需要收集、存储和处理大量数据。机器学习算法要求源数据呈指数增长，以实现精确度的线性提高。创建可靠而准确的机器学习模型可能需要数百TB甚至PB的数据，而且这只会随着时间的推移而增加。

而构建PB级存储系统通常意味着使用对象存储或横向扩展文件系统。现代对象存储肯定可以解决AI工作负载的容量需求，但是它们可能无法满足其他标准，例如高性能。另一方面，横向扩展文件系统可以提供高性能和良好的可扩展性，但在单个平台存储整个数据集可能会很昂贵。同时，考虑到可扩展性要求和高容量产品的成本，块存储通常不是机器学习或AI的正确选择。这里唯一的例外是在公共云中，稍后我们将对此进行讨论。

存储成本的变化引入了分层或使用多种类型存储来存储数据的想法。例如，对象存储库是存储大量非活动AI数据的好办法。当需要数据进行处理时，数据可被移动到高性能文件存储集群或为高性能而设计的对象存储的节点中，当完成处理，数据将被移回。

性能。AI数据的存储性能包括三个方面。首先，可能也是最重要的是延迟性。这定义了软件发出的每个I / O请求的处理速度。低延迟很重要，因为改善延迟会直接影响创建机器学习或AI模型所需的时间。复杂的模型开发可能需要数周或数月的时间才能运行。通过缩短此开发周期，企业可以更快地创建和完善模型。在检查延迟功能时，由于对象访问的流性质，对象将参考传送首字节的时间(Time To First Byte)，而不是单个I / O请求的延迟。

性能的另一个方面是吞吐量，以及数据写入存储平台或从存储平台读取数据的速度。系统吞吐量很重要，因为AI培训会处理大量数据集，通常会反复读取和重新读取相同的数据，以准确地开发模型。机器学习和AI数据的来源(例如自动驾驶汽车上的传感器)每天可以产生数TB的新数据。所有这些信息都必须添加到现有数据存储中，并且需确保对任何现有处理只有最小影响。

性能的最后一个方面是并行访问。机器学习和AI算法会并行处理数据，运行多个任务，这些任务会多次读取同一数据且跨多个并行任务。对象存储擅长并行读取I / O处理，因为不需要管理对象锁定或属性。文件服务器会跟踪内存中打开的I / O请求或文件句柄。因此，活跃I / O请求的数量取决于平台上可用的内存。

此外，机器学习数据可能包含大量的小文件。在这方面文件服务器可以提供比对象存储更好的性能。企业可向AI存储供应商提出的关键问题是，

（编辑：衡水站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

最贵版《哈利·波特》	沃尔沃打造动力电池研
美联邦航空局针对C波段	错失进局红利期谷歌