晋江文学城
下一章 上一章  目录  设置

2、三叉戟的雏形 ——当星火 ...

  •   ——当星火开始燃烧,它需要的不是更多的柴薪,而是一条让火焰流动的河道。

      一、天使的橄榄枝
      2021年3月,华京。
      三月的华京,寒意渐退,柳枝抽出了嫩绿的新芽。
      陆沉舟站在星辰科技的会议室里,对面坐着三个人。
      领头的是一位四十多岁的男人,头发梳得一丝不苟,西装笔挺,眼神锐利而精明。他叫王建国,是华京一家知名投资机构的合伙人。跟在他身后的是两位年轻的分析师,抱着笔记本电脑,随时准备记录。
      “陆总,”王建国翻开手中的资料,“我们看过你的商业计划书。说实话,我们对你的技术很感兴趣。”
      陆沉舟的心跳加速了一拍。
      过去八个月,他和小张几乎住在了公司里。凌晨四点的华芯科技园,已经成为他们最熟悉的风景。从最初的那封神秘邮件开始,陆沉舟就意识到,自己捕捉到了一个足以改变一切的机会。
      “谢谢王总的认可。”陆沉舟努力让自己的声音保持平稳,“我可以再为您演示一下我们的技术架构吗?”
      王建国点点头。
      陆沉舟走到投影幕前,打开了笔记本电脑。屏幕上出现了一个复杂的架构图——那是”星火大模型”的初代架构。
      “这是我们设计的分布式训练框架。”陆沉舟指着屏幕,“传统的深度学习训练是单机的,但我们的架构可以将计算任务分散到数百甚至数千张GPU上。通过数据并行和模型并行相结合,我们可以训练参数规模超过千亿的大模型。”
      王建国皱着眉头听完,然后问了一个关键问题:“陆总,我查过你们公司的财务数据。过去一年,你们的支出超过了两千万,但收入几乎是零。你们的钱从哪里来?”
      陆沉舟沉默了一下。
      这个问题,他早就想好了答案。
      “王总,我卖掉了我的房子。”陆沉舟平静地说,“还有我之前创业攒下的积蓄。总共大约一千万。”
      会议室里安静了几秒。
      王建国的眼神变了变,似乎对眼前这个年轻人多了几分敬意。但商业是商业,敬意归敬意。
      “陆总,我直说了吧。”王建国合上资料,“大模型这个赛道,饼画得很大,但真正能吃到的没几家。OpenAI有微软,百度有李彦宏,你一个创业公司,凭什么?”
      “更关键的是,”王建国继续说,“你知道训练一个大模型要多少钱吗?GPT-3的训练成本是875万美元,这还是2020年的数据。你现在连一台像样的GPU服务器都买不起,怎么和他们竞争?”
      陆沉舟没有立刻回答。
      他走到窗前,看着窗外正在苏醒的城市。三月的阳光洒在他脸上,带着一丝暖意。
      “王总,您说的都对。”陆沉舟转过身,眼神明亮而坚定,“但您忘了一件事。”
      “什么?”
      “OpenAI之所以能训练出GPT-3,不是因为他们钱多。”陆沉舟走回会议桌前,“而是因为他们走在正确的路上。GPT-3的成功证明了Scaling Law——模型越大,性能越强。但问题是,Scaling不只是堆卡。”
      “那是什么?”王建国来了兴趣。
      “是架构。”陆沉舟的眼中闪烁着光芒,“您看过我们的技术文档吗?我们设计的’流动式训练’架构,可以将数据利用率提升三倍以上。这意味着,用同样的硬件,我们可以训练出更大的模型。”
      王建国若有所思地点点头。
      “还有一件事。”陆沉舟深吸一口气,“我不知道您是否了解,OpenAI的GPT-3论文里,提到了一种叫’思维链’的技术。这可能是大模型走向通用人工智能的关键。”
      “思维链?”王建国皱眉,“那是什么?”
      “简单来说,就是让模型学会推理。”陆沉舟在白板上画了一个简单的示意图,“传统的语言模型是根据前文预测下一个词。但思维链模型可以’思考’——它可以生成中间步骤,然后基于这些步骤得出最终答案。”
      “这有什么用?”王建国追问。
      “用处大了。”陆沉舟的眼中燃烧着火焰,“想象一下,一个能真正’思考’的AI。它可以帮你做复杂的决策,可以进行数学推理,可以理解代码,可以……”
      他停顿了一下。
      “可以成为真正的助手。”
      会议室里再次陷入沉默。
      王建国盯着陆沉舟看了很久,然后站起身。
      “陆总,我需要和我的团队商量一下。”他伸出手,“三天内给你答复。”
      陆沉舟握住他的手,用力点了点头。

      二、至暗时刻
      王建国走了。
      陆沉舟站在空荡荡的会议室里,看着窗外的天空。
      他知道,刚才的演示并不完美。投资人问的那些问题,他并没有完全回答。
      最核心的问题是:钱。
      一千万,听起来很多,但在AI赛道里,只够烧几个月。GPU服务器的租金、数据的采集和清洗、团队的工资……每一项都是天文数字。
      “陆总。”
      小张的声音从门口传来。
      陆沉舟转过头,看到小张手里拿着一叠账单。
      “这是上个月的支出明细。”小张把账单放在桌上,声音有些沉重,“GPU服务器续费45万,数据标注团队费用28万,还有……”
      “还有什么?”
      “还有电费。”小张苦笑了一下,“服务器的电费,比我们三个人的工资加起来还多。”
      陆沉舟拿起账单,扫了一眼。
      数字触目惊心。
      “我们的现金流,还能撑多久?”他问。
      小张沉默了几秒。
      “如果不做任何调整……四个月。”
      四个月。
      陆沉舟闭上眼睛。
      四个月后,如果还没有新的资金注入,星辰科技就会死。
      “陆总,”小张犹豫了一下,“要不……我们先做一些小项目?接一些企业定制的活,先让公司活下去?”
      陆沉舟没有说话。
      他走到白板前,看着上面的架构图。
      小张说的没错。对于一个创业公司来说,先活下去是最重要的。很多AI公司都是这样,先做定制项目积累资金,然后再慢慢做自己的产品。
      但这样做的代价是什么?
      代价是时间和专注。
      大模型的研究需要全身心的投入。如果分心去做其他项目,星辰科技就永远不可能追上OpenAI的步伐。
      “小张,”陆沉舟开口了,声音有些沙哑,“你还记得那天晚上吗?”
      “哪天?”
      “就是我收到那封邮件的那天。”陆沉舟转过身,“凌晨四点,我让你去查数据管道的论文。”
      小张点点头:“记得。那天您像疯了一样。”
      “那天我告诉你,我可能发现了一些能改变一切的东西。”陆沉舟走到窗前,看着远处的灯火,“现在我还是这么认为。”
      “但我们快没钱了。”小张的声音里带着一丝焦虑。
      “我知道。”陆沉舟深吸一口气,“所以我们必须拿到那笔投资。”
      “王总说三天内给答复……”
      “三天太长了。”陆沉舟打断了他,“我现在就给他打电话。”
      小张愣住了:“现在?”
      陆沉舟已经拿起了手机。

      三、意外的转机
      电话接通了。
      “陆总?”王建国的声音从听筒里传来,带着一丝意外,“我们刚分开,你就打电话来了?”
      “王总,”陆沉舟开门见山,“我需要当面和您谈。”
      电话那头沉默了几秒。
      “好吧。”王建国说,“你现在在哪?”
      “华芯科技园。”
      “我半小时后到。”
      电话挂断。
      小张惊讶地看着陆沉舟:“陆总,您这是……”
      “逼自己一把。”陆沉舟放下手机,嘴角露出一丝苦笑,“也逼投资人一把。”
      半小时后,王建国再次坐在了星辰科技的会议室里。
      这一次,他没有带分析师。
      “陆总,”王建国看着陆沉舟,“你有什么想说的?”
      陆沉舟没有立刻回答。他从包里拿出一个U盘,插进了会议室的电脑。
      “王总,我想让您看一个东西。”
      屏幕上出现了一段代码。
      “这是什么?”王建国皱眉。
      “这是我们昨天刚完成的一个小实验。”陆沉舟指着屏幕,“我们用十分之一的参数量,训练出了一个简化版的模型。它没有GPT-3那么大,但已经展现了思维链的雏形。”
      他按下播放键。
      屏幕上,一个简单的对话界面出现了。
      用户输入:“小明有3个苹果,小红给了他2个,然后小明吃掉了1个。小明现在有几个苹果?”
      模型输出:“让我思考一下。小明最初有3个苹果。小红给了他2个,所以3+2=5个。然后小明吃掉了1个,所以5-1=4个。答案是4个苹果。”
      王建国的眼睛亮了。
      “它……在推理?”他难以置信地问。
      “是的。”陆沉舟点点头,“这就是思维链的力量。它不只是给出答案,而是展示思考的过程。”
      王建国盯着屏幕看了很久。
      “陆总,”他终于开口,“我承认,你的演示打动了我。但我仍然有一个顾虑。”
      “您说。”
      “大模型的训练需要海量的数据和算力。你们现在的资源,根本不够。”王建国直视陆沉舟的眼睛,“就算你的架构再先进,没有足够的燃料,火箭也飞不起来。”
      陆沉舟沉默了。
      这正是他一直回避的问题。
      “所以,”王建国站起身,“我有一个提议。”
      “什么提议?”
      “我个人的天使基金,可以给你们投500万。”王建国说,“但有一个条件。”
      “什么条件?”
      “你们必须all in。”王建国的眼神变得锐利,“不是小打小闹,不是做做定制项目。是真正地把所有资源都投入到通用人工智能的研究上。”
      陆沉舟的心跳加速了。
      “还有,”王建国补充道,“我需要你给我一个承诺。在未来两年内,你不能分心做其他业务。星辰科技只能有一个目标——训练出中国自己的GPT。”
      陆沉舟沉默了。
      两年。
      两年的all in,意味着巨大的风险。如果失败了,他将一无所有。
      但如果不赌这一把,他这辈子都会后悔。
      “王总,”陆沉舟抬起头,“我能问一下吗?您为什么愿意冒这个险?”
      王建国笑了。
      “因为我相信你。”他说,“那天晚上,你眼睛里的光,让我想起了二十年前的自己。”
      “那时候我也是个疯子,为了一个不切实际的梦想,卖房子、借钱、被人当傻子。”王建国的眼神变得悠远,“最后,我赌赢了。”
      “现在,我愿意再赌一次。”
      陆沉舟站起身,伸出手。
      “成交。”
      王建国握住他的手,用力摇了摇。
      “陆总,”他说,“两年。我给你两年时间。两年后,让我们看看,中国能不能诞生自己的OpenAI。”

      四、流动的火焰
      签完投资协议的第二天,陆沉舟做出了一个决定。
      他让小张把公司的备用服务器全部开机,然后在自己的桌子上放了一块白板。
      白板上写着几个大字:
      “让数据流动起来。”
      这是那封神秘邮件里的话。八个字,像一盏灯,照亮了陆沉舟前进的方向。
      “陆总,”小张走过来,指着服务器集群,“GPU全部就绪了。一共32张A100,总算力大约是每秒1.2亿亿次浮点运算。”
      陆沉舟点点头。
      这个算力,和OpenAI的万卡集群相比,还差得远。但对于国内创业公司来说,已经算是顶级配置了。
      “分布式框架搭好了吗?”他问。
      “搭好了。”小张打开笔记本电脑,“我们实现了三层并行:数据并行、模型并行和流水线并行。理论上,可以扩展到上千张GPU。”
      陆沉舟走到服务器前,看着那些闪烁的指示灯。
      “小张,你知道这些灯代表什么吗?”
      “呃……服务器运行状态?”
      “不。”陆沉舟摇摇头,“这些灯代表我们燃烧的热情。每一盏灯,都是我们对未来的信仰。”
      小张愣了一下,然后笑了。
      “陆总,您这话听起来像在写诗。”
      “AI时代,我们需要一点浪漫。”陆沉舟也笑了,但笑容很快变得严肃,“不过现在不是浪漫的时候。小张,召集所有人,我们开会。”

      一个小时后,星辰科技的所有成员都聚集在了会议室里。
      除了小张,还有五个人。
      赵明,算法工程师,28岁,清华博士,研究方向是自然语言处理。
      李芳,数据工程师,26岁,北邮硕士,负责数据管道的搭建。
      陈飞,系统架构师,30岁,之前在华为做过分布式系统。
      林晓,测试工程师,25岁,年轻但技术扎实。
      还有刘洋,产品经理,27岁,负责对接外部需求。
      六个人,加上陆沉舟,七条枪。
      这就是星辰科技的全部班底。
      “各位,”陆沉舟站在白板前,“我有一个消息要宣布。”
      “我们刚拿到了500万的天使投资。”
      会议室里响起了低低的欢呼声。
      “但这不是重点。”陆沉舟继续说,“重点是,从现在开始,星辰科技只有一个目标。”
      他在白板上写下几个字:
      “训练中国第一个千亿参数大模型。”
      “我知道这个目标听起来很疯狂。”陆沉舟看着每个人的眼睛,“千亿参数,听起来遥不可及。但我相信,只要我们方法正确,就一定能做到。”
      “陆总,”赵明举手,“我有几个技术问题。”
      “说。”
      “第一,GPT-3有1750亿参数,我们的目标是千亿级别,差了一倍。但就算千亿,训练成本也是一个天文数字。我们的钱够吗?”
      “不够。”陆沉舟坦诚地说,“所以我们要做三件事。第一,优化训练效率,降低单次训练成本。第二,寻找更多算力资源,包括云服务和政府补贴。第三,稳扎稳打,先用百亿参数练手,再逐步扩展到千亿。”
      “第二,”赵明继续问,“数据从哪里来?GPT-3用了超过3000亿token的训练数据,我们不可能有那么大的数据集。”
      “这是个好问题。”陆沉舟点点头,“我们的策略是’高质量胜过高数量’。互联网上公开的数据,我们只取最优质的那10%。同时,我们也在和几家内容平台谈合作,获取他们的高质量数据。”
      “还有第三点,”李芳举手,“我们的分布式训练框架虽然理论上支持千卡扩展,但实际运行中会遇到很多问题。比如梯度消失、负载不均衡、故障恢复……”
      “所以这就是我们接下来要解决的核心问题。”陆沉舟在白板上画了一个示意图,“我把这个叫做’流动式训练’架构。”
      “流动式训练?”众人疑惑。
      “对。”陆沉舟的眼中闪烁着光芒,“传统的分布式训练,数据是静态的——每个节点处理一批数据,然后同步,再处理下一批。这种方式效率低下,而且容易出现瓶颈。”
      “但我们的’流动式训练’,数据是动态的。数据像水流一样在集群中流动,每个节点随时可以获取需要的数据,不再需要等待同步。”
      “这样做的好处是什么?”陈飞问。
      “好处是效率大幅提升。”陆沉舟说,“根据我们的模拟,’流动式训练’可以将GPU利用率从传统的40%提升到80%以上。这意味着,同样的硬件,我们可以训练出更大的模型。”
      会议室里响起了热烈的讨论声。
      陆沉舟看着这些年轻的脸上露出的兴奋表情,心中涌起一股暖流。
      这群人,愿意为了一个梦想,付出一切。
      “好了,”陆沉舟拍了拍手,“散会。大家回去准备一下,明天正式开始封闭式开发。”
      “封闭式开发?”小张惊讶地问。
      “对。”陆沉舟点点头,“从明天开始,除了必要的物资采购,没有人可以离开这栋楼。”
      “我们要用三个月时间,完成星火大模型的第一个版本。”
      “三个月?”赵明难以置信,“这也太赶了吧?”
      “不赶不行。”陆沉舟叹了口气,“大模型赛道,现在是战国时代。每天都有新的公司入场,每天都有新的技术突破。如果我们慢了,就永远追不上别人。”
      “所以,我们必须快。”
      “快到让对手绝望。”

      五、第二封信
      凌晨两点。
      星辰科技的办公区,已经陷入黑暗。只有陆沉舟的办公室里,还亮着一盏灯。
      他坐在电脑前,看着屏幕上不断滚动的训练日志。
      第一天,数据管道搭建完成,测试通过。
      第二天,分布式框架调试完成,28张A100成功组网。
      第三天,模型初始化完成,开始第一次试跑。
      现在,是第四天的凌晨。
      第一次试跑的结果即将出来。
      “Loss: 4.7321”——屏幕上显示着这个数字。
      Loss,是训练过程中的损失函数。简单来说,这个数字越低,代表模型越”聪明”。
      4.7321,不算高,但也不算低。
      对于一个刚起步的模型来说,这已经是不错的成绩。
      但陆沉舟知道,这还远远不够。
      他需要的是”涌现”。
      “涌现”是大型语言模型研究中最重要的概念之一。当模型的参数规模超过某个临界点时,模型会突然展现出一些意想不到的能力——比如推理、常识理解、甚至简单的代码编写。
      GPT-3之所以伟大,就是因为它展现了1750亿参数下的涌现能力。
      而陆沉舟的目标,是让星火大模型也具备这种能力。
      “临界值……”他喃喃自语,“我们的临界值是多少?”
      突然,屏幕上弹出了一封邮件。
      发件人:unknown
      主题:你的临界值,在这里。
      陆沉舟的心跳骤然加速。
      这是他收到的第二封神秘邮件。
      他颤抖着手,点开了邮件。
      附件是一个文档,只有两页。
      第一页是一张图表,显示的是模型规模与性能的关系曲线。
      图表上有几个关键节点,分别标注着:
      ?10亿参数:基础语言理解
      ?100亿参数:上下文学习
      ?500亿参数:简单推理
      ?1000亿参数:涌现开始
      ?1750亿参数:复杂推理
      “1000亿参数……”陆沉舟盯着那个数字,“这就是涌现的临界值?”
      他翻到第二页。
      第二页是几行代码,看起来像是某种优化算法的实现。
      但让陆沉舟震惊的不是代码本身,而是代码下面的一句话:
      “让梯度流动,让损失流动,让智慧流动。——这就是通往涌现的道路。”
      陆沉舟猛地站起来。
      “梯度流动……损失流动……”
      他突然明白了那封邮件的含义。
      传统的深度学习训练,梯度是”静止”的。每个节点计算自己的梯度,然后同步汇总,再统一更新模型参数。这个过程叫做”梯度同步”。
      但如果让梯度”流动”起来呢?
      如果每个节点在计算完自己的梯度后,不等待同步,而是立刻用它来更新局部模型,然后再把更新后的梯度传递给下一个节点呢?
      “异步……异步梯度更新……”陆沉舟的眼睛越来越亮。
      他快步走到白板前,拿起笔,开始疯狂地写公式。
      如果他的推测没错,这种”流动式梯度更新”可以大幅减少节点之间的通信开销,从而让分布式训练的效率提升数倍。
      “这……这可能改变一切……”陆沉舟放下笔,看着白板上的公式。
      他不知道那封邮件是谁发的,也不知道这些信息是从哪里来的。
      但他知道,这些信息,将改变大模型训练的格局。
      “不管你是谁,”陆沉舟对着空气说,“谢谢你。”
      窗外,东方的天际开始泛起鱼肚白。
      新的一天,即将开始。

      六、星火燎原
      三个月后。
      2021年6月,华京。
      星辰科技的服务器集群,已经从28张A100扩展到了112张。
      “流动式训练”架构,经过无数次的调试和优化,终于成熟了。
      陆沉舟站在服务器前,看着那些闪烁着蓝光的机器,心中充满了骄傲。
      “陆总,”小张走过来,手里拿着一份报告,“第三轮测试结果出来了。”
      “Loss是多少?”
      “2.1147。”小张的声音里带着一丝激动,“比三个月前下降了50%以上。”
      陆沉舟接过报告,仔细地看着每一个数字。
      Loss曲线逐渐趋于平稳,说明模型正在稳定地学习。
      “涌现测试呢?”他问。
      “做了。”小张打开笔记本电脑,“我们在几个典型的推理任务上测试了模型。结果……”
      “结果怎么样?”
      “结果超出预期。”小张的眼中闪烁着光芒,“当参数规模超过800亿时,模型开始展现出明显的’思维链’能力。它可以解决简单的数学问题,可以进行逻辑推理,甚至可以……”
      “可以什么?”
      “可以写简单的代码。”小张说,“我们给它一个描述,它就能生成对应的Python代码。虽然还不是完全正确,但已经让我们看到了希望。”
      陆沉舟沉默了。
      800亿参数,就已经展现出了涌现能力的雏形。
      如果达到1000亿呢?
      “继续训练。”他说,“目标是1000亿参数。”
      “陆总,”小张犹豫了一下,“我们的资金……”
      “还剩多少?”
      “按照现在的消耗速度,还能撑四个月。”
      四个月。
      四个月后,如果还没有新的资金注入,训练就会中断。
      “四个月够了。”陆沉舟说,“按照现在的进度,四个月内,我们一定能看到结果。”
      “如果看不到呢?”
      “那就再想办法。”陆沉舟的眼中燃烧着火焰,“就算把房子再买回来,就算再去借钱,我也要把这事做成。”
      小张看着陆沉舟的表情,突然笑了。
      “陆总,您知道吗?每次看到您这个样子,我就觉得没有什么是不可能的。”
      “因为确实没有什么是不可能的。”陆沉舟也笑了,“人类之所以能走到今天,就是因为我们敢于做梦,敢于把不可能变成可能。”
      “三百年前,人类以为飞行是神话。一百年前,人类以为登月是妄想。三十年前,人类以为通用人工智能是科幻。”
      “但现在呢?”
      “现在,我们正在亲手创造历史。”
      窗外,阳光正好。
      星辰科技的标志,在阳光下熠熠生辉。
      那是一颗燃烧的星星,象征着人类对知识的渴望,对未知的探索,对未来的希望。
      陆沉舟看着那个标志,心中涌起一股豪情。
      “星火燎原。”他轻声说,“终有一天,我们会让全世界看到——”
      “中国的AI,不会落后于任何人。”

      【第2章·完】

      本章技术注释:
      1.分布式训练(Distributed Training):将深度学习模型的训练任务分散到多个计算节点(GPU)上执行的技术。本章提到的”数据并行”和”模型并行”是两种主要的分布式策略。
      2.思维链(Chain-of-Thought, CoT):一种让大型语言模型展示推理过程的技术。通过让模型生成中间推理步骤,可以显著提升模型在复杂推理任务上的表现。本小说将这一2022年才被广泛研究的技术提前到2021年。
      3.涌现(Emergence):当系统的复杂性超过某个临界点时,突然展现出全新能力的神秘现象。在大型语言模型中,涌现表现为模型规模的增大突然带来质变的能力提升。
      4.流动式训练(Flow-based Training):本章提出的创新架构概念。通过让数据和梯度在集群中”流动”而非”同步”,可以大幅提升分布式训练的效率。
      A100 GPU:NVIDIA推出的数据中心级GPU,是2020年代初期训练大型AI模型的主要硬件。

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>