寻找AI大模型时代的存力破壁人:华为的行与思
提到AI基石,人们普遍会想到计算硬件、大模型等,却容易忽略了一个关键的AI支柱——存力。
大模型的全周期,都离不开存力与算力的协同保障。比如Pre-Training预训练阶段,涉及EB/PB级海量数据的处理,频繁保存与读取Checkpoint文件,对存储的带宽和吞吐量要求很高;Post-Training后训练阶段,模型精调需要处理个性化数据,存储系统需应对频繁的IO操作。Inference推理阶段,token输出过慢会让用户长时间等待、体验差,而低延迟的实时数据传输,依赖于存储的并发访问能力。
算力突飞猛进而存力不足,两者的不协同,在一定程度上制约云数据中心的效率,也成为