红杉AI2025峰会10-数据中心即计算机:AI时代的万亿基建狂潮与能源大挑战

核心观点总结

人工智能的飞速发展正催生一场真正的“工业革命”,其核心驱动力不仅在于算法的突破,更在于支撑这些算法运行的庞大基础设施——“钢铁、服务器与电力”。本次访谈深刻揭示了AI基础设施建设的空前规模与复杂性。未来的AI数据中心,其能源消耗和功率密度将远超传统,液冷技术成为标配,整个数据中心将被视为一个统一的计算单元。能源供应已成为AI发展的关键瓶颈,这不仅推动了在可再生能源富集地区建设数据中心的趋势,甚至催生了建设包括小型模块化反应堆在内的新一代发电设施的需求。在这场竞赛中,像Crusoe这样的初创公司凭借其敏捷性、垂直整合能力以及“第一性原理”的解决思路,在超大规模AI基础设施的快速部署方面,展现出超越传统科技巨头的潜力。同时,“主权AI”和数据本地化的趋势,也正在驱动全球范围内对AI工厂的投资和建设。

AI工业革命:钢铁、服务器与电力

主持人 David Conn: 欢迎来到本次访谈,我们将深入探讨“AI工业革命”,并特别聚焦于其“工业”属性——也就是钢铁、服务器和电力。英伟达的黄仁勋先生已经为我们解读了服务器层面,因此我们将更侧重于钢铁和电力。在座各位都清楚,全球最具实力的公司之间正在展开一场构建最大规模GPU集群的竞赛。我们听闻过10万GPU集群,现在是30万,大型科技公司甚至在讨论百万级别的GPU集群。而Chase,正是这一切背后的核心人物之一。
Chase Locke Miller: 确实如此。目前,我们在德克萨斯州的阿比林市有大约5000名员工,夜以继日地加速AI基础设施的建设。

从零开始:构建AI工厂的挑战

David Conn: 我们理解黄仁勋先生的服务器,也知道它们需要放置在数据中心。或许在座的一些人能够想象数据中心的模样,甚至参观过。但是,从一块空地开始,建设这样一座AI工厂,究竟需要经历怎样的过程?
Chase Locke Miller: 我认为,首先我们必须退后一步,审视AI工厂和未来的AI数据中心究竟是什么,以及它们与现有数据中心有何不同。要知道,“数据中心”这个词在某种程度上已经被过度使用了。将20年前仅用于支撑网页浏览的数据中心,与如今管理着10万以上GPU集群的高性能AI数据中心相提并论,就好比将卡丁车和路虎揽胜都称为“交通工具”一样。它们确实都是交通工具,但你显然不会将它们用于相同的目的。
审视当今的AI数据中心基础设施及其规模化所需的条件,我们会发现这是一个高度工业化的过程。其能源消耗巨大,这一点已被多次提及。我想通过一个例子来帮助大家理解:北弗吉尼亚州被许多人视为全球数据中心的枢纽,是互联网大部分流量的发生地,我们已经建设了几十年。根据仲量联行2024年底的报告,北弗吉尼亚州的总容量约为4.5吉瓦。而Crusoe,一家成立仅七年的初创公司,我们专注于大型AI基础设施建设,目前在建的容量就已达到约2吉瓦,另有20吉瓦的项目正在规划中。这意味着,为了实现AI的宏伟蓝图,我们正在彻底改变能源和数据中心行业的格局,因为其所需的基础设施规模是空前的。
当然,建设过程中的瓶颈也在不断变化。曾经有一段时间,芯片供应是主要障碍,但随着台积电和英伟达等公司产能的提升,这一问题已大为缓解。然而,电力、钢铁和数据中心空间已成为新的主要瓶颈,这些都是复杂的供应链,难以在短时间内提速。
Crusoe始终坚持“第一性原理”和垂直整合的策略。举例来说,为了加快项目进度,我们在美国本土建立了自己的制造工厂。例如,低压开关设备——基本上是数据中心的电气控制室——我们得到的报价交付周期长达100周,这简直难以置信。于是,我们自己建厂生产,现在我们将周期缩短到了22周。通过识别供应链中的关键环节并着力加速,这对于我们成功以前所未有的速度建设这些超大规模项目至关重要。

携手科技巨头:初创企业的突围之道

David Conn: 你们是如何说服大型科技公司与Crusoe合作的?亚马逊、谷歌、微软这些公司本身就是数据中心领域的巨头。在上一波云计算浪潮中,建设数据中心是它们的核心竞争力,它们都拥有庞大的团队来完成这项工作。而你们,一家七年前还在油田上利用废弃天然气进行小型计算的公司,如今却成为了这些巨头建设数据中心的合作伙伴。你们是如何做到的?
Chase Locke Miller: 值得注意的是,尽管大型科技公司在很多方面都表现出色,但它们天生并非为快速行动而设计。事实上,从组织结构上看,它们的设计往往不利于快速决策,尤其是在涉及巨额采购时。比如,当我们需要做出购买决策时,我可以直接决定并在当天执行。但在微软这样的公司,一个决策可能需要经过19层审批。因此,从起跑线上看,它们在快速行动方面就存在巨大劣势。
当然,这些巨头也制定了出色的计划,它们通常将大型数据中心项目(如100兆瓦以上)视为一个三到五年的规划。而我们在阿比林项目的第一阶段,仅用了300天就完成了目标。第二阶段,我们更是将时间缩短到了200多天。我们极大地缩短了此类基础设施的上市时间,这对于那些追求大规模、专用AI基础设施的大型科技公司和AI实验室而言,具有核心价值。

超大规模数据中心与主权AI的崛起

David Conn: 有传言称你们参与了Stargate项目(微软与OpenAI合作的超级计算机项目),不知您是否方便评论?对于这些不仅由大型科技公司推动,甚至由国家层面参与的超大规模数据中心,您有何看法?黄仁勋先生在其财报电话会议中也多次提及“主权数据中心”和“主权AI战略”。当数据中心从我们熟悉的北弗吉尼亚州模式,演变为这些巨型项目时,其实际占地面积如何?政府应如何看待和规划?您认为这一趋势将如何发展?
Chase Locke Miller: 我认为有两个主要趋势在推动这一发展。首先,由于此类基础设施规模化后所需的能源体量巨大,我们必须采取“能源优先”的策略。这正是Crusoe的核心理念:将计算基础设施的需求引导至能够获得低成本、清洁且充足能源的地区。这也是我们将项目选址在西德克萨斯州,特别是阿比林市的原因。那里曾经过度建设了可再生能源,尤其是风力发电,以至于在大约30%的时间里,风电运营商不得不以负电价出售电力,并且存在大量的弃风现象——即他们本可以发电,但由于不愿以低价出售而选择不发电。这与AI对能源的巨大需求形成了鲜明对比,因此在阿比林建设数据中心,利用其丰富的清洁能源,是一个自然而然的选择。
其次,“主权AI”的理念也十分引人关注。这是我们观察到的另一个导致此类基础设施需求在地理上广泛分布的维度。这主要与数据本地化有关。当一些国家或实体认为其拥有的数据不能离开本土时,他们就需要在本国境内处理这些数据,并希望利用这些数据做一些特殊的事情。这极大地催化了各国对本土AI战略的投资需求,人们也开始从地缘政治和权力格局转变的角度来看待这一问题。

AI的能源大考:挑战与机遇并存

David Conn: 能否请您更深入地谈谈能源问题?我想在座的各位对AI将面临能源约束都有一个抽象的概念。上周索尼娅给我看了一张图表,显示美国的能源消耗曲线相对平缓,而中国的则急剧上升。结合您提到的地缘政治因素,能源问题显得尤为重要。请为我们剖析一下能源问题的症结所在?哪些方面存在真正的制约,哪些方面则不然?我们将如何加速能源生产?未来的能源格局会是怎样?目前的情况有多严峻?
Chase Locke Miller: 这是一个有趣的问题。在美国,公用事业在很长一段时间内都是一个相对沉寂的行业。我们的总发电能力并没有显著增长,基本处于持平状态,因为能源效率的提升和电气化趋势在一定程度上抵消了需求增长。然而,AI带来了需求的阶梯式增长,这仿佛唤醒了沉睡的巨人,突然间就需要吉瓦级别的电力,这些电力从何而来?
我们再次不得不采取“第一性原理”的思考方式:如果无法从公用事业公司获得电力,我们能否自己建造发电厂?事实上,我们也确实这样做了。我们将AI视为一个巨大的机遇,它能够加速下一代能源技术的发展。我目前与三家小型模块化反应堆(SMR)公司达成了合作,希望能够推动核能成为未来数据中心电力的关键组成部分。因此,我将此视为整个行业加速诸多先进能源技术发展的巨大契机,引领我们迈向一个智能和能源都极度充裕的未来。
我认为,当前这个时刻的特殊之处在于,人类历史上第一次能够真正地“制造”智能。在此之前,我们只能通过有机的方式——生育后代——来实现智能的延续,而且培养他们成为富有生产力的智能个体需要漫长的时间。如今,我们可以用硅基技术制造智能。这正是当前这股浪潮的核心所在。这些AI工厂非常复杂。黄仁勋先生早些时候提到的所有关于网络结构、NVLink、InfiniBand以及构建大规模相干集群的技术,都是实现“制造智能”这一现实的重大技术突破。但除此之外,还有许多相关的组成部分,从数据中心到高性能服务、虚拟化,再到计算基础设施的周边支持,这些都是Crusoe专注构建的领域。

能源谈判的幕后:复杂的多方博弈

David Conn: 您能带我们了解一下能源谈判的幕后故事吗?我猜想,真正了解公用事业领域的人并不多。在红杉资本,我常常把您比作这个行业的洛克菲勒,您需要与电力公司周旋,谈判这些关键交易,而这些交易是其他一切发展的基础。这个过程实际上是如何运作的?
Chase Locke Miller: 首先,我拥有一支出色的团队,他们专注于此,并且我们吸纳了来自不同背景的优秀人才。例如,我团队里有位成员,不知道大家是否看过《地产大亨》(Landman) 这部剧,他以前就是一名地权经纪人。他曾与农民和牧场主就矿产权利——主要是地表以下的资源——进行谈判。现在,他则负责谈判大规模的能源交易、土地和电力协议,以推动这些大型AI工厂的落地。
市场上确实存在很多“噪音”,我们收到了大量的合作请求,我甚至无法想象萨姆(指OpenAI CEO Sam Altman)每天会收到多少机会。但要建成一个大型AI工厂,仅仅拥有电力是远远不够的。我们见过那种“皮卡双雄”式的人物,声称他们的表亲家有条高压线穿过,自己又在德州有大片牧场,就想在那里建大型AI数据中心。通常情况下,答案是否定的。这需要电力、网络、审批许可和整个供应链等多种因素的协同配合。
举个例子,在德克萨斯州的阿比林市,我们有5000名员工在那里工作。而阿比林市的总人口是12万人。这意味着我们雇佣了该市相当一部分人口,并且坦率地说,还需要从外地引入大量劳动力,因为这些项目需要电气、机械和各种建筑行业的熟练技工。

未来数据中心的设计蓝图

David Conn: 您能谈谈数据中心的设计吗?我们可以在网上看到Meta等大型科技公司公布的详细资料,了解它们的规划和数据中心布局。有一点让我印象深刻:传统的弗吉尼亚州数据中心,服务器分散在整个空间;而现在的新型大型数据中心,即使经过改造,所有的GPU也往往集中在一个小区域内,这是由数据中心的设计需求决定的。网络架构正在发生变化,黄仁勋先生也一直在推动这方面的发展。未来的数据中心会是什么样子?液冷技术将如何融入其中?我们应该如何理解未来数据中心的概念?
Chase Locke Miller: 坦白说,这正是我最初投身这个领域的原因。当时Crusoe正在构建一个AI云平台,我研究了未来的技术路线图和不断变化的计算架构,然后意识到,随着这些计算架构的演进,支撑它们的数据中心也必须发生根本性的转变。因此,为了打造全球最顶尖的AI云平台,我必须成为AI数据中心建设领域的佼佼者。
我认为,最重要的变化在于整体功率密度的急剧提升。20年前,一个传统数据中心的机柜功率可能只有2千瓦,最多4千瓦。而现在,英伟达的NVL72和GB200机柜的功率大约在120到130千瓦。黄仁勋先生在GTC大会上发布的Vera Rubin Ultra,其机柜功率更是高达600千瓦。这意味着功率密度实现了数量级的增长。这从根本上改变了数据中心内部的热力学环境,因此我们必须对冷却架构进行重大调整。
走进我们的数据中心,你会看到非常有趣的景象,它看起来像一个自来水厂。巨大的管道在整个数据中心内输送冷却水。每栋建筑大约储存一百万加仑的水,这些冷水通过“直接到芯片”(direct-to-chip)的液冷架构注入机架为芯片降温,然后热水流出到冷却塔,将热量排到室外。每栋建筑配备了84个冷却塔。
此外,我们还高度关注数据中心周边的网络设计。因为我们思考的层面不是芯片或服务器,而是集群。数据中心本身就是新的计算单元。这正是AI工厂的本质——数据中心规模的计算机。基于这种理念,我们还会考虑如何将多个建筑连接起来。在阿比林,我们有八栋独立的建筑正在建设中,并计划将它们全部互联。每栋建筑的网络核心之间通过44英寸的导管相连,从而可以形成一个由GB200组成的、全球规模最大的相干集群(一旦上线运行)。

创始人的攀登哲学与企业文化

David Conn: 我想问一个关于您个人的问题。作为创始人,您攀登了七大洲最高峰中的五座,您的公司价值观中也有一条是“像登山者一样思考”。您的公司经历了多次转型和迭代,这种企业文化是如何帮助您走到今天的?
Chase Locke Miller: “像登山者一样思考”这条价值观确实很特别,也是Crusoe独有的。它源于我创立Crusoe时,刚从珠穆朗玛峰探险归来,当时满脑子都是登山的感悟。我思考了很多成功登山者的实践经验,以及如何将这些经验转化为优秀员工在公司中的行为准则。
当然,我并非要求每位员工都成为极限运动员去攀登山峰,但我希望他们能借鉴登山过程中的一些思维方式和实践方法,这些对于成功至关重要。登山时,你必须制定A计划,希望能顺利登顶,天气良好,一切按计划进行。但同时,你也必须为意外情况做好准备。我认为,这种韧性和稳健性已经融入到我们流程设计和组织设计的每一个环节,使我们能够在公司历史上的多次混乱时期茁壮成长。因此,在混乱中保持韧性,是我们赖以成功的核心原则之一。
David Conn: 非常感谢,Chase。
Chase Locke Miller: 非常感谢,David。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...