首页>GPU显卡服务器问答/资讯>美国GPU服务器如何提升超算性能?

美国GPU服务器如何提升超算性能?

发布时间:2026/5/21 14:11:51

如果你问我,这几年做高性能计算最大的感受是什么,我会告诉你四个字:算力焦虑。

不是焦虑算力不够用,而是焦虑算力用不好。我们团队之前跑一个材料科学的分子动力学模拟,用了一整台搭载了八张A100的GPU服务器,结果跑了一周,我打开监控面板一看,GPU平均利用率只有百分之四十出头。也就是说,超过一半的算力在那空转,电费在烧,时间在走,但有效的科学计算只占了一小半。

这种“高配低用”的窘境,在我接触过的很多用户里都普遍存在。大家花钱上了高端GPU服务器,以为买了硬件就等于买到了性能。但现实往往很骨感——硬件只是底子,能不能把这块底子真正用好,中间隔着一条很深的“优化鸿沟”。

而我这几年的观察和实战经验告诉我,美国在GPU超算领域的领先,绝不仅仅是“买得多、买得贵”,而是在“怎么用”这件事上,下了大量扎扎实实的功夫。今天我就想结合自己的经历和一些公开的研究案例,聊聊美国GPU服务器到底是怎么把超算性能一步步“榨”出来的。

别让GPU“饿着”:能耗管理的精细化之路

说到提升超算性能,很多人第一反应是“换更强的卡”。但如果你真的在一线跑过大规模任务,你就会发现,很多时候瓶颈根本不在GPU本身,而在于怎么让GPU持续、稳定、高效地工作。

最近我读到一篇来自橡树岭国家实验室的研究,他们在一款新一代的超级芯片上做了一个很有意思的实验。研究人员给这颗芯片设置了不同的功耗上限,从很低的200瓦一直调到默认的1000瓦。然后他们跑了一个复杂的材料科学应用,观察在不同功耗限制下,程序的运行时间和能耗到底怎么变化。

结果很有意思。他们发现,不同的计算任务,对功耗的需求完全不同。有些计算环节,你把功耗上限调低一些,运行时间几乎没有增加,但省下来的电非常可观;而另一些环节,稍微降一点功耗,性能就掉得厉害。

这个发现给我的启发很大。以前我们跑超算任务,基本上就是“开足马力跑”,从来没想过可以在不同阶段动态调整功耗。但现在看来,这种做法相当浪费。就好比你开一辆车,在高速公路上用经济时速巡航,和在市区走走停停,油门踩法肯定不一样。超算也一样,不同的计算阶段,完全可以匹配不同的功耗策略,在性能和能耗之间找到那个“甜点”。

橡树岭的这项研究就是帮我们找到了找到这个甜点的方法论。它告诉我们,“一刀切”的功耗设置是低效的,精细化的、任务级别的功耗管理,才是提升整体效率的关键。

这件事在国内的超算用户中讨论得还不多,但在美国的很多超算中心,这已经是一个被认真对待的方向。比如阿贡国家实验室的Polaris超算系统,研究人员就在系统日志里发现,GPU的空闲功耗其实有很大的优化空间,通过合理的功耗管理策略,可以省下相当可观的能源。

软件优化:那“11行代码”的故事

如果说功耗管理是让GPU“不太饿”,那软件优化就是让GPU“吃得快、嚼得烂”。

我去年关注了一个让我印象特别深的案例。美国阿贡国家实验室每年都会办一个GPU Hackathon,就是那种开发者扎堆、集中攻坚代码优化的活动。去年有一个来自华盛顿大学的量子物理研究团队,他们的代码跑在Aurora超算上,整个程序的计算量非常大。

他们在这个编程马拉松上做了一件很“极端”的事。团队成员仔细分析了自己的代码,发现整个程序里有一个只有11行的循环,竟然占了总计算时间的一半以上。

11行代码,吃掉一半的时间。你想想这个概念。

于是这几位研究员把这11行代码单独抽出来,专门针对GPU架构做了一次彻底的重写。他们甚至把原来的Fortran 77老代码升级成了现代的Fortran 2023,就是为了更好地适配GPU的并行计算模型。

结果呢?这11行代码的运算速度,提升了整整两百倍。

两百倍是什么概念?原来要跑一个月的任务,现在可能几个小时就干完了。

我听到这个故事的时候,第一反应是震撼,第二反应是惭愧。因为我以前也觉得,代码能跑就行,优化是锦上添花。但这个故事告诉我,在超算这个领域,“能跑”和“能跑得快”之间的差距,可能就是几百倍的性能鸿沟。而跨越这道鸿沟的方法,不是什么玄学,就是沉下心来,一行一行地抠代码,把那些真正消耗时间的“热点”找出来,然后针对GPU的架构去做针对性的优化。

美国能源部这几年在做的,其实就是把这种“较真”的能力,系统性地赋能给科研人员。他们通过编程马拉松、通过各类培训,让越来越多的研究团队具备这种深度优化的能力。这比单纯买几万张卡堆在那里,要有用得多。

架构创新:当“机架”变成一台“巨型计算机”

除了能耗管理和软件优化,还有一个更底层的维度——硬件架构本身。

以前我们理解超算,就是一排一排的机柜,每个机柜里有几十台服务器,每台服务器里有几张GPU。任务调度系统把一个大任务拆成很多小份,分给不同的GPU去算,算完了再汇总。这种模式的问题是,GPU和GPU之间的通信延迟很高,因为数据要走网络。

但现在,这个逻辑正在被颠覆。

英伟达最近推出的GB200 NVL72系统,把72颗GPU塞进一个机架里,用NVLink高速互联技术把它们全部串在一起。这意味着什么?意味着这72颗GPU不再是一堆独立的显卡,而是一台统一的、共享显存的巨型GPU。

在这样的架构下,数据在GPU之间的传输速度比传统网络快了几十倍甚至上百倍。原来需要拆分得很细、通信开销很大的并行任务,现在可以更自然地跑在更大的GPU集群上。

但硬件只是第一步。美国国家实验室在做的事情,是让调度系统能够理解这种复杂的拓扑结构。他们使用专门的调度插件,让作业能够被智能地放置在最合适的NVLink域内,避免跨域通信带来的性能损失。

这种“软件定义硬件”的思路,是把超算性能从“纸面算力”转化为“实际算力”的关键一环。买一堆卡插在一起只是开始,真正考验功力的,是怎么把这些卡组织成一支协同高效的队伍。

体量的震撼:从“万卡”到“十万卡”

说了这么多微观层面的优化,最后我想聊一个宏观的角度——算力的规模。

前面提到的那些功耗管理、代码优化、拓扑调度,都是为了让每一张卡发挥出最大的效能。但当GPU的数量从几千张变成几万张、甚至十万张的时候,问题就进入了另一个维度。

美国的超算中心正在做的事情,某种程度上就是在挑战这个维度。

美国能源部最近宣布了几个大项目,光是阿贡国家实验室的Solstice系统,就要部署十万颗英伟达Blackwell GPU。十万颗是什么概念?2025年6月整个TOP500榜单里所有超算的AI训练算力加起来,也才六百多exaflops,而Solstice这一套系统,训练算力就达到了一千exaflops。

还有橡树岭国家实验室的Lux系统,预计2026年初上线,它的AI算力据说是现有超算的三倍。而另一台名为Discovery的超算,则要到2028到2029年才投入使用,用的是下一代AMD EPYC处理器和MI430X GPU。

你可能会问,堆这么多卡有意义吗?不怕利用率低吗?

这就要回到超算的本质了。超算存在的意义,是解决那些单台服务器、甚至小规模集群根本解决不了的科学问题。核聚变模拟、全基因组分析、气候变化预测、新材料的量子级计算——这些问题对算力的需求几乎是无限的。在这种量级的任务面前,再高的利用率也是不够的。

而美国的策略是:在持续扩大算力“分母”的同时,通过我们前面讲的那些优化手段,不断提高“分子”——也就是有效算力。两头一起抓,才能把科学发现的速度推到极致。

举个例子,阿贡实验室的研究人员正在用Aurora超算做核物理的量子蒙特卡洛模拟,模拟恒星内部的碳氮氧循环。这种问题的计算量是天文数字,没有百亿亿次级别的超算,根本连想的资格都没有。

所以,GPU服务器的规模,本身也是一种性能——它决定了你能不能用算力去“砸开”那些原来打不开的科学大门。

最后

回到标题那个问题:美国GPU服务器如何提升超算性能?

我的答案是:靠体系。

不是单靠某一个神器,而是靠一整套从硬件到软件、从功耗到调度、从微观代码到宏观架构的完整方法论。

它既有橡树岭国家实验室那样,对功耗与性能关系的精细建模;也有阿贡国家实验室那样,手把手帮科研人员把那11行拖后腿的代码提速两百倍的耐心;还有英伟达那样,从架构层面把一整个机架变成一台巨型GPU的颠覆式创新;更有美国能源部那样,愿意砸下真金白银去部署十万卡级别超算集群的魄力。

这些事,每一件单独拎出来都不是什么惊天动地的秘诀,但把它们叠加在一起,效果就是惊人的。

对于我们这些做高性能计算的人来说,这其实也是一种提醒:如果你买了一台高配的GPU服务器,却发现跑起来远不如预期,别急着怪硬件。不妨先问问自己:你的功耗策略合理吗?你的代码有没有那“11行”可以优化的热点?你的调度系统理解你的硬件拓扑吗?

很多时候,答案就藏在这些细节里。而把这些细节一个个抠出来、优化好,才是提升超算性能最扎实、也最绕不开的路。


在线客服
微信公众号
免费拨打0592-5580190
免费拨打0592-5580190 技术热线 0592-5580190 或 18950029502
客服热线 17750597993
返回顶部
返回头部 返回顶部