首页>GPU显卡服务器问答/资讯>美国GPU服务器如何提升超算性能?

美国GPU服务器如何提升超算性能?

发布时间：2026/5/21 14:11:51

如果你问我，这几年做高性能计算最大的感受是什么，我会告诉你四个字：算力焦虑。

不是焦虑算力不够用，而是焦虑算力用不好。我们团队之前跑一个材料科学的分子动力学模拟，用了一整台搭载了八张A100的GPU服务器，结果跑了一周，我打开监控面板一看，GPU平均利用率只有百分之四十出头。也就是说，超过一半的算力在那空转，电费在烧，时间在走，但有效的科学计算只占了一小半。

这种“高配低用”的窘境，在我接触过的很多用户里都普遍存在。大家花钱上了高端GPU服务器，以为买了硬件就等于买到了性能。但现实往往很骨感——硬件只是底子，能不能把这块底子真正用好，中间隔着一条很深的“优化鸿沟”。

而我这几年的观察和实战经验告诉我，美国在GPU超算领域的领先，绝不仅仅是“买得多、买得贵”，而是在“怎么用”这件事上，下了大量扎扎实实的功夫。今天我就想结合自己的经历和一些公开的研究案例，聊聊美国GPU服务器到底是怎么把超算性能一步步“榨”出来的。

别让GPU“饿着”：能耗管理的精细化之路

说到提升超算性能，很多人第一反应是“换更强的卡”。但如果你真的在一线跑过大规模任务，你就会发现，很多时候瓶颈根本不在GPU本身，而在于怎么让GPU持续、稳定、高效地工作。

最近我读到一篇来自橡树岭国家实验室的研究，他们在一款新一代的超级芯片上做了一个很有意思的实验。研究人员给这颗芯片设置了不同的功耗上限，从很低的200瓦一直调到默认的1000瓦。然后他们跑了一个复杂的材料科学应用，观察在不同功耗限制下，程序的运行时间和能耗到底怎么变化。

结果很有意思。他们发现，不同的计算任务，对功耗的需求完全不同。有些计算环节，你把功耗上限调低一些，运行时间几乎没有增加，但省下来的电非常可观;而另一些环节，稍微降一点功耗，性能就掉得厉害。

这个发现给我的启发很大。以前我们跑超算任务，基本上就是“开足马力跑”，从来没想过可以在不同阶段动态调整功耗。但现在看来，这种做法相当浪费。就好比你开一辆车，在高速公路上用经济时速巡航，和在市区走走停停，油门踩法肯定不一样。超算也一样，不同的计算阶段，完全可以匹配不同的功耗策略，在性能和能耗之间找到那个“甜点”。

橡树岭的这项研究就是帮我们找到了找到这个甜点的方法论。它告诉我们，“一刀切”的功耗设置是低效的，精细化的、任务级别的功耗管理，才是提升整体效率的关键。

这件事在国内的超算用户中讨论得还不多，但在美国的很多超算中心，这已经是一个被认真对待的方向。比如阿贡国家实验室的Polaris超算系统，研究人员就在系统日志里发现，GPU的空闲功耗其实有很大的优化空间，通过合理的功耗管理策略，可以省下相当可观的能源。

软件优化：那“11行代码”的故事

如果说功耗管理是让GPU“不太饿”，那软件优化就是让GPU“吃得快、嚼得烂”。

我去年关注了一个让我印象特别深的案例。美国阿贡国家实验室每年都会办一个GPU Hackathon，就是那种开发者扎堆、集中攻坚代码优化的活动。去年有一个来自华盛顿大学的量子物理研究团队，他们的代码跑在Aurora超算上，整个程序的计算量非常大。

他们在这个编程马拉松上做了一件很“极端”的事。团队成员仔细分析了自己的代码，发现整个程序里有一个只有11行的循环，竟然占了总计算时间的一半以上。

11行代码，吃掉一半的时间。你想想这个概念。

于是这几位研究员把这11行代码单独抽出来，专门针对GPU架构做了一次彻底的重写。他们甚至把原来的Fortran 77老代码升级成了现代的Fortran 2023，就是为了更好地适配GPU的并行计算模型。

结果呢?这11行代码的运算速度，提升了整整两百倍。

两百倍是什么概念?原来要跑一个月的任务，现在可能几个小时就干完了。

我听到这个故事的时候，第一反应是震撼，第二反应是惭愧。因为我以前也觉得，代码能跑就行，优化是锦上添花。但这个故事告诉我，在超算这个领域，“能跑”和“能跑得快”之间的差距，可能就是几百倍的性能鸿沟。而跨越这道鸿沟的方法，不是什么玄学，就是沉下心来，一行一行地抠代码，把那些真正消耗时间的“热点”找出来，然后针对GPU的架构去做针对性的优化。

美国能源部这几年在做的，其实就是把这种“较真”的能力，系统性地赋能给科研人员。他们通过编程马拉松、通过各类培训，让越来越多的研究团队具备这种深度优化的能力。这比单纯买几万张卡堆在那里，要有用得多。

架构创新：当“机架”变成一台“巨型计算机”

除了能耗管理和软件优化，还有一个更底层的维度——硬件架构本身。

以前我们理解超算，就是一排一排的机柜，每个机柜里有几十台服务器，每台服务器里有几张GPU。任务调度系统把一个大任务拆成很多小份，分给不同的GPU去算，算完了再汇总。这种模式的问题是，GPU和GPU之间的通信延迟很高，因为数据要走网络。

但现在，这个逻辑正在被颠覆。

英伟达最近推出的GB200 NVL72系统，把72颗GPU塞进一个机架里，用NVLink高速互联技术把它们全部串在一起。这意味着什么?意味着这72颗GPU不再是一堆独立的显卡，而是一台统一的、共享显存的巨型GPU。

在这样的架构下，数据在GPU之间的传输速度比传统网络快了几十倍甚至上百倍。原来需要拆分得很细、通信开销很大的并行任务，现在可以更自然地跑在更大的GPU集群上。

但硬件只是第一步。美国国家实验室在做的事情，是让调度系统能够理解这种复杂的拓扑结构。他们使用专门的调度插件，让作业能够被智能地放置在最合适的NVLink域内，避免跨域通信带来的性能损失。

这种“软件定义硬件”的思路，是把超算性能从“纸面算力”转化为“实际算力”的关键一环。买一堆卡插在一起只是开始，真正考验功力的，是怎么把这些卡组织成一支协同高效的队伍。

体量的震撼：从“万卡”到“十万卡”

说了这么多微观层面的优化，最后我想聊一个宏观的角度——算力的规模。

前面提到的那些功耗管理、代码优化、拓扑调度，都是为了让每一张卡发挥出最大的效能。但当GPU的数量从几千张变成几万张、甚至十万张的时候，问题就进入了另一个维度。

美国的超算中心正在做的事情，某种程度上就是在挑战这个维度。

美国能源部最近宣布了几个大项目，光是阿贡国家实验室的Solstice系统，就要部署十万颗英伟达Blackwell GPU。十万颗是什么概念?2025年6月整个TOP500榜单里所有超算的AI训练算力加起来，也才六百多exaflops，而Solstice这一套系统，训练算力就达到了一千exaflops。

还有橡树岭国家实验室的Lux系统，预计2026年初上线，它的AI算力据说是现有超算的三倍。而另一台名为Discovery的超算，则要到2028到2029年才投入使用，用的是下一代AMD EPYC处理器和MI430X GPU。

你可能会问，堆这么多卡有意义吗?不怕利用率低吗?

这就要回到超算的本质了。超算存在的意义，是解决那些单台服务器、甚至小规模集群根本解决不了的科学问题。核聚变模拟、全基因组分析、气候变化预测、新材料的量子级计算——这些问题对算力的需求几乎是无限的。在这种量级的任务面前，再高的利用率也是不够的。

而美国的策略是：在持续扩大算力“分母”的同时，通过我们前面讲的那些优化手段，不断提高“分子”——也就是有效算力。两头一起抓，才能把科学发现的速度推到极致。

举个例子，阿贡实验室的研究人员正在用Aurora超算做核物理的量子蒙特卡洛模拟，模拟恒星内部的碳氮氧循环。这种问题的计算量是天文数字，没有百亿亿次级别的超算，根本连想的资格都没有。

所以，GPU服务器的规模，本身也是一种性能——它决定了你能不能用算力去“砸开”那些原来打不开的科学大门。

最后

回到标题那个问题：美国GPU服务器如何提升超算性能?

我的答案是：靠体系。

不是单靠某一个神器，而是靠一整套从硬件到软件、从功耗到调度、从微观代码到宏观架构的完整方法论。

它既有橡树岭国家实验室那样，对功耗与性能关系的精细建模;也有阿贡国家实验室那样，手把手帮科研人员把那11行拖后腿的代码提速两百倍的耐心;还有英伟达那样，从架构层面把一整个机架变成一台巨型GPU的颠覆式创新;更有美国能源部那样，愿意砸下真金白银去部署十万卡级别超算集群的魄力。

这些事，每一件单独拎出来都不是什么惊天动地的秘诀，但把它们叠加在一起，效果就是惊人的。