AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！

AI 能陪你亲亲热热，

多亏了“存储硬汉”输出狠活儿！

文 | 史中

（一）AI 凭啥免费给你香香？

你有没有想过，这些国民级的 AI 应用凭啥能免费给你用？

现在咱人均都有四五个“在线卑微”的 AI 秘书。

她们化着淡妆站一排，从“霸王龙怎么搓澡”到“丧尸围城靠一根牙签如何突围”，无论多奇葩的问题，只要你问得出口，她们就必须捏着鼻子答。

而且，豆秘书（豆包）的答案不满意，你扭头就去找 D 秘书（DeepSeek），是一点儿情面都不看，比皇帝选妃还凶残，属实膨胀。

要知道，这些秘书们可都是免费的啊！一个个用爱发电、自带干粮住你家、 24 小时侍寝还被你挑三拣四。

可见 AI 这行有多卷。

当然，免费背后肯定是 AI 厂商在补贴嘛。但这里有个前提：成本不能离谱，太高谁也补不起呀！

AI 厂商的师傅们每天研究一件事儿——怎么高性价比地“开学校”！

教学质量要好：隔三差五把自家模型送学校回炉，争取学完之后色艺双绝，艳压群芳；

学费还得便宜：毕竟就算学出来是学贯中西博古通今的花魁，打工的收入还是辣么微薄。。。

从 2023 年开始，各家 AI 都狂暴地请来更好的名师（算法），研发新的教材（数据），盖更多的教室（GPU），使用更先进的教学管理制度（训练框架），争取让学生们学得又好又快又便宜。

AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！(图2)

忙活了一两年，赛博世界里一座座崭新的学校挺立，”教学性价比”嗷嗷提升。

够了吗？够了。。。又好像不够。。。

老师傅们不约而同地缓缓移动怀疑的目光。

他们发现，角落里不起眼的“图书馆”。。。仿佛似乎竟然。。。成了支撑 AI “性价比”的一根重要支柱！！！

此时从天空俯瞰，历史恰行至拐点，惊雷炸响，国产存储技术的命运齿轮开始缓缓转动。

（二）建图书馆的“天命人”

我们开动时光机，去往 2023 年的北京西二旗。

那真是平静的日子，袁清波还有空研究“保温杯里应该泡哪种枸杞”。。。不光是他，整个曙光存储的技术团队都在“泡枸杞”。

澄清一下，不是老师傅集体躺平摸鱼，正相反，他们有点儿“独孤求败”的意思。

这帮师傅就是“图书馆”的施工队。

所谓图书馆，就是——企业级存储系统。

那时候，曙光存储系统主要服务于大型的国企央企。这些企业的数据固然很重要，但要求和图书馆类似：存下来，别丢，想要的时候能找出来。

至于一个数据是 0.1 秒找到，还是 0.0001 秒找到，同时能找 10 万条数据还是 100 万条数据，还真没啥极致的讲究。。。

再看袁清波，是中科院计算所的博士后，主攻系统架构，他的很多同事都是中科院师兄弟，放眼全中国这是妥妥的明星阵容。虽说要正心诚意地开发每一代产品，但这个团队多少有点儿“性能过剩”的意思。

AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！(图4)

袁清波

灵明石猴栖身花果山，可不是为了量贩吃桃，而是有朝一日成为“天命人”。

这不，2024 年春节刚过，分布式存储产品 ParaStor 的产品经理乔雅楠就找到了袁清波，上来一顿虎狼之词：

“下一代分布式存储产品，能不能把带宽做到 190G 每秒，把 IOPS 做到 500 万？”

先按下暂停键，科普一下。

这句话的意思是说：

1）每秒钟传输的数据量是 190GB，这相当于 38000 张照片。这么说吧，你微信里所有朋友一年的自拍，都能在一秒钟内帮你存好！

2）每秒钟存取的动作能做 500 万次，相当于天南海北的 500 万人同时给你小红书点赞，能在一秒之内一个不差地帮你记录清楚！

不夸张地说，曙光是中国存储产品的扛把子，性能本来就是“姚明级”的。但下一代产品的要求却要比现在翻两番，妥妥是让姚明穿着增高鞋踩高跷蹦起来扣篮。。。

这么强悍的性能，是准备存啥？？

咱们继续按下播放键。

袁清波听到这话，并不惊诧，而是 45 度仰天长叹，一副“该来的总算来了”的神情。。。

虽是久居山林的扫地僧，但技术师傅早有耳闻，曙光存储正在和很多头部 AI 厂商勾兑，要帮他们的“AI 学校”建“图书馆”。

这里，话头就和最开始接上了：训练个 AI，到底跟图书馆有啥关系嘞？

不妨跟着中哥钻进一座 AI 学校，咱们实地观摩下目前人类最牛的“万亿参数大语言模型”是肿么训练的！

我们先来到教学楼，这里热火朝天，有 1 万间教室，每个教室里都能坐下 1 亿个葫芦娃，他们在一本一本地飞速看书。

每个葫芦娃其实就是 AI 大脑的一个神经元。他们看的书，就是训练语料。

每看一本书，他们都会刷新一次自己对世界的认识，然后改一下手里的参数。

当所有的教材都看完之后，每个葫芦娃手里的最终参数也固定了下来，一万亿个参数汇合在一起，就组成了一个水灵灵的 AI 大秘书！

喂养这么一个怪兽级的模型，大概需要消耗 10PB 的语料。这是多少呢？

换成纸质书有 220 亿本，一本一本竖着放，也能绕地球赤道一圈。比香飘飘还狠。

一万亿个葫芦娃同时看书，场面如风卷残云：

可能这一秒要从图书馆调拨 500 万册语文书；下一秒钟就调拨 500 万册英语书。。。

这时候，压力给到了图书馆，如果供不上这么大的量，那学校只能停课干等，不就浪费了教学资源吗？！

所以，要想支持世界最强 AI 的训练，500 万 IOPS（也就是每秒 500 万次读写）的能力还真就是必须的↓↓↓

即便如此，还远远不够。

AI 学校并不真实，而是在赛博世界里构建的，每间教室其实就是一张显卡。这一万张显卡同时进行巨量又细密的计算，难免会出现 Bug。

这就好像：一万间教室突然有一个停电了，葫芦娃同学一慌，把之前看的书给忘了。。。

这一忘不要紧。因为最终的 AI 秘书由每一个葫芦娃手里的参数所共同支撑，有一个教室的学生学岔劈了，所有教室的学生都得重头再来。

没错，是倒回到新学期第一天，从第一本书开始。。。

就像下图↓↓↓

不用怀疑，现在人类的技术就是这么水。

为了让 AI 好歹能训练完，老师傅摸索出了一个并不优雅的办法：

每隔一段时间，就让所有葫芦娃暂停下，把手里的参数统一抄在本本上，作为一个“检查点”放在图书馆备着。

万一后面哪个教室掉链子，就全体滚回到最近的“检查点”开始，总比从头来要好！

就像酱↓↓↓

这里，压力又给到了图书馆！

检查点包括万亿参数，是一个巨巨巨巨大的文件，最大能到 5TB，相当于 3 套《四库全书》。

图书馆存这么多书，可得要点儿时间呢。。。关键是，如果完成这个存档需要 1 小时，那么下一个存档最早也要 1 小时之后才能开始。

这中间万一学校那边出错了，就相当于一个小时都白学了。一退就退一个钟头，这不又浪费了教学资源吗？！

也许有人觉得，一个小时还好吧。

给你算算，万卡集群的成本是几亿美元，核算折旧，加上电费、人力，每回滚一秒就是上百美元的损失，回滚两分钟就是近万美元的损失，回滚一个小时几十万美元就没了。。。

几十万美元用来买泡面，得吃几辈子呀？！

如果图书馆（存储系统）每秒能存储 190GB，那情况就完全不同了——存完一个 5TB 的检查点只需要 26.32 秒。

这意味着，每分钟都可以存一次档！存两次都行！

这就相当于开挂了呀↓↓↓

OK，科普结束，跳回现实。

乔雅楠粗略算了一下，如果达到每秒 190GB 吞吐能力，500 万 IOPS，对于 AI 厂商来说，每投入 1 快钱在这样的存储上，就能得到 10 快钱的收益。这种“一本十利”的买卖，谁能拒绝呢？

这笔账算完，技术团队的命数就定了——搞得出来要搞，搞不出来也得搞！

此时，镜头缓缓转向对面的袁清波。背景音乐的鼓点儿已经由远及近，保温杯里震起涟漪。。。

生活不止眼前的枸杞，曙光存储团队的师傅们已不再是花果山散仙，而是拯救人工智能于水火的“天命人”。

Mission Accepted！

（三）从头盖一座图书馆

话说，曙光存储老师傅之所以敢接这么凶残的任务，还有个朴素的原因：当时某顶尖美国存储厂商已经放出风来，他们的下一代产品可以达到 190G 带宽。

呵，都是一个鼻子两个眼，美国人能做出来，中国人做不出来？？

原地鼓捣了俩礼拜，技术团队已经非常有信心了：

基于现有的服务器硬件，每秒要吞下 190G，只有一个办法，让电流传输超过光速~~

所以，做不出来。

今天的浅黑故事就到这里，再见。

等等。。。刚才好像有个限定条件：“基于现有的服务器硬件”。

“如果咱自己从头设计一套‘存储专用服务器’，有没有戏呢？”

袁清波被自己的想法吓了一跳。

他们可是软件工程师啊！过去对图书馆做升级，从来都是在既有的房间里改“软装”，现在竟然要把“图书馆本身”推倒重盖，这也太膨胀了。

但老师傅冷静一想，几乎可以肯定：美国同行如果没有推翻相对论，也必须得重新设计服务器。。。至于他们咋设计的，咱也不知道，咱也没法问。。。

然而，既然做了中国存储行业的扛把子，摸石头过河不就是曙光的“天命”吗？！

估计你已经好奇图书馆里是啥样子了。

咱们这就钻进去，和老师傅们一起设计设计。

先介绍主要人物：

书：数据

书架：硬盘

图书管理员：CPU

管理员的桌子：内存

借书还书的窗口：网卡

咱们一步一步来。先讲讲过去“旧图书馆”的样子：

简单说，通用服务器的设计目标不是“图书管理”，而是“算数”。

所以，这里的 CPU 不应叫图书管理员，更应该叫算数员。

只要有题目从窗口进来，算数员就算，算好后返回给窗口。

大多中间步骤数据用完就扔了。只有重要的结果才会归档，所以书架放在旁边即可。

（这里的金色地毯代表硬件通路，数据只能从这里走。）

但是，如果用这个布局直接做图书馆，就有一点儿别扭了。

因为图书馆的管理员没有那么花哨的计算，主要职能就是“搬运”——把从窗口送进来的书籍放到书架上，以及把书架上的书籍送到窗口。

搬运，讲究个丝滑。

大家经常争抢线路，就不好了。

于是咱可以把布局微调，把图书管理员的桌子做大一些，让书架和桌子之间的路宽一些。

这样想要什么书，管理员放在桌子上“滴”一下，就直接送到窗口了。

除了基础布局，额外的通路设计也很有讲究。

袁清波给我举了个例子：

图书馆里其实有两组管理员（两颗 CPU），每组管理员都有距离自己较近的窗口（网卡）、桌子（内存）和书架（硬盘）。

假设：一个找书的需求从窗口 A 进来，可它要找的那本书离 B 组 4 号管理员更近。

那么，B 组 4 号管理员就得先从架子上把书拿下来，放在自己面前的桌子上，A 组再过来一个管理员，绕到 B 桌，把东西拿回来 A 桌，再从 A 窗口送出去。

这会导致一个问题：这本书会有相当一段时间滞留在桌上。

要是只有一本也就罢了。在每秒几百万次的请求中，如果很多书滞留在桌面，就会让桌面空间吃紧。

它们像管道里的淤泥一样，影响整个图书馆的周转速度。

估计你也想到了办法：

如果想办法在这里加几条通道，让 A 桌管理员能更方便地拿到 B 做的东西，不就能大大减少桌面面积（内存）被占用的时间了吗？

以上只是为了画小人方便，把情况进行了极端简化，真实的解决方案并非如此显而易见。

但相信你已经有了感觉：硬件布局和通路设计，这两件事儿对整个存储系统的*性能上限*影响巨大。

OK，我们继续回到技术师傅身边。

他们仰头，前面出现三座大山：

第一座，把这个服务器给设计出来；

第二座：说服领导同意用“专用存储服务器”开发下一代存储产品；

第三座：说服工程技术中心把这服务器给造出来。

先搞“第一座山”。

设计硬件，好像就是在纸上画画图，但实际远非这么轻松愉快。一颗 CPU 或者一条内存在某种情况下的具体性能，是很难估算准确的。

要想确切了解，只有把硬件拿来实地测试。

袁清波他们开始搭建环境，一点点儿调整图书馆里“桌椅板凳”的位置和远近。通过观察性能变化，罗列出所有瓶颈，再从所有瓶颈里寻找最“卡脖子”的部分依次解决。

这种微调，很像玩儿华容道，在方寸里里左挪一下右挪一下，每挪一下都牵连到最终结局。

越做实验，袁清波他们就对硬件的脾气越清楚；越清楚，信心就越足。

这些信心在翻越“第二座山”的时候派上了大用。

AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！(图21)

团队在肝设计方案

老师傅私下憋了很久才敢和领导提出“把图书馆推倒重盖”。

听到这个“非分请求”，领导提出疑问：“新搞一套服务器肯定要成本，团队努努力，还用标准服务器克服一下有没有可能？”

“绝不可能！”袁清波拍案而起。

噗地一声，他从怀里掏出电脑，把最近几个月做的各种实验数据一一列举，跟打辩论一样，摆出了十来条“旧硬件存在物理极限”的证据。

领导还没来得及反应，他又话锋一转：“再说，咱也不是没这个实力！”敲下键盘，肝了几个月搞出来的新服务器设计图出现在屏幕上。

釜底抽薪+贴脸杀，领导好像没有不答应的道理。。。

拿到了金牌令箭，接下来就要挖“第三座山”——找工程技术部商量生产问题。

这是“外交大使”乔雅楠的任务。

工程技术部的同事听明来意，其实有点儿错愕，设计硬件，不是我们的活儿吗？你们咋给干了？

本来愉快地答应就行，但他们发现一些小问题：

存储团队设计的硬件，有很多附加的逻辑和通路，这会提高硬件的制造成本呀！

这些额外的连线，真的有必要吗？

乔雅楠赶紧把测试软件拿来，逐一现场演示这些附加的线路都是干啥用的。工程技术部的师傅们点了点头，随即又摇了摇头：“应该还有性价比更高的设计方法吧？”

他们说得有道理，但现实情况是门外的 AI 客户已经嗷嗷待哺，来不及了呀！！存储团队干脆一拍胸脯：“先这么生产，多出来的成本，我们包了！”

就这样，第三座大山终于被推为平地。

新的服务器拿去量产时，已经到了 2024 年秋天。190G/s 带宽终于稳了，老师傅回头一看，这边还剩一位爷——500 万 IOPS！

AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！(图22)

乔雅楠

（四）在 0 和 1 的世界里雕花

我猜还有浅友没搞清带宽和 IOPS 的区别。

这里再用图书馆打个比方：

IOPS，指的是图书馆每秒借出去的书有“多少本”；

带宽，是指图书馆每秒钟借出去书的总厚度有“多少页”。

有啥区别呢？

假设图书馆每秒借出的书摞在一起是 1900 万页。

如果大多数书都很厚，每本书有 1900 页，那 1900 万页总共也就 1 万本。把这些书借出去，管理员们每秒只需要“滴” 1 万次。这对于光速工作的 CPU 来说压力不大。

但同样总共 1900 万页，如果每本书只有 5 页，那每秒钟管理员就得“滴” 400 多万次，工作量瞬间多400倍，比在产线上打螺丝还累了！

肿么办？

一个所有人都能想到的办法就是：加管理员（CPU）呗。。。

但袁清波的“加”字还没说出口，就被乔雅楠的 PUA 给打断了：“我对你们这群大神有信心，现有资源肯定能撑住 500 万！”

袁清波点点头：“嗯，我也对自己有信心！”

咱们继续钻进图书馆里，看老师傅要怎么搞 IOPS。

话说，在图书馆（服务器）里拢共有 256 个管理员（CPU 核心）。这些管理员如果被充分调度，干到 500 万 IOPS 是绰绰有余的。

但问题恰恰是：图书馆的日常工作中，调度并不充分！“等待”和“绕路”是常态。

举两个

AI 能陪你亲亲热热，多亏了“存储硬汉”输出狠活儿！

（一）AI 凭啥免费给你香香？

（二）建图书馆的“天命人”

（三）从头盖一座图书馆

（四）在 0 和 1 的世界里雕花

商务合作

推荐文章

热门文章

友情链接