国外显卡服务器如何助力云游戏服务?
聊起云游戏,我身边不少朋友的第一反应都是“这玩意儿卡不卡?”。
早几年,如果有人问我推不推荐玩云游戏,我大概率会摇摇头。那时候的体验确实差强人意,画质糊、延迟高、操作跟手感更是别提了。但最近这一年多,情况发生了翻天覆地的变化。尤其是当我深入了解了一些国外显卡服务器在云游戏领域的应用之后,我越来越觉得,属于云游戏的时代,可能真的来了。
这篇文章,我想从一个普通玩家的视角,结合我看到的一些国外案例和技术资料,跟你聊聊国外的显卡服务器到底是怎么把云游戏这件事做起来的。不是什么高深的技术论文,就是一些我消化理解后的观察和思考。
当游戏不再依赖你手里的那块显卡
先说说云游戏最核心的逻辑到底是什么。
我们平时玩3A大作,之所以需要买那么贵的电脑,本质上是因为所有的计算渲染工作都是在你自己家里这台机器上完成的。CPU处理逻辑,GPU负责把一帧一帧的画面算出来,然后再显示在你的显示器上。你的显卡越强,算得就越快,画面就越流畅。
云游戏做的事情其实很“暴力”。它把“算”这个过程,从你家里搬到了远处的数据中心里。那里的服务器装着顶级的显卡,游戏在那上面跑,跑完之后把画面压缩成一个视频流,通过网络传到你的屏幕上。你按一下手柄,这个指令通过网络发回服务器,服务器算完之后再把新的画面传给你。
这个逻辑决定了云游戏好不好用,关键就三条:服务器里的显卡够不够强、网络够不够快、服务器离你够不够近。
而国外那些做得好的云游戏服务,恰恰就是在这三条上下了大功夫。
性能越级:让云端的显卡跑得比家里还快
先说说性能这件事。
做云游戏,服务器里插的显卡和我们在家里用的虽然都叫GPU,但用法其实不太一样。家里的显卡只管一个用户,往死里跑就行了。服务器里的显卡要同时服务好多人,还要365天不间断地跑,稳定性、散热、功耗都是大问题。
我看过一个案例,Boosteroid这家公司是全球比较大的独立云游戏服务商之一,有超过800万的用户。他们做了一件很有意思的事情,没有直接用市面上现成的服务器显卡,而是和AMD一起定制了一套属于自己的硬件方案。
他们用的显卡是基于RDNA架构专门为云游戏优化的,配了被动散热——就是没有风扇,靠风道散热。这种设计就是考虑到了数据中心里几百上千张卡堆在一起,风冷才是最靠谱的方案。CPU用的是AMD的EPYC系列,配合高频率的DDR5内存和超快的NVMe固态硬盘。
这套定制硬件的效果挺惊人的。普通的游戏笔记本跑大型开放世界游戏,读图慢、野外掉帧是常事。但这套方案跑起来,在高画质下能把帧率稳定在一个很高的水平,用户端甚至能开到4K分辨率,帧率跑到120帧。
更夸张的是英伟达这边的GeForce NOW。这个服务最近完成了一次巨大的硬件升级,从原来的RTX 4080级别的服务器,全面换成了基于Blackwell架构的RTX 5080级别服务器。Ultimate会员现在可以体验到5K分辨率下的120帧画面,或者在1080p分辨率下跑到360帧的电竞级帧率。他们还在服务端支持了DLSS 4的多帧生成技术和光线追踪,这就意味着你在云上玩《赛博朋克2077》,光追效果和本地用高端显卡几乎没区别。
国外显卡服务器的迭代速度,其实已经超越了很多普通玩家的升级频率。你还没来得及攒钱买一张RTX 5080,云上已经全面普及了,而且你拿个平板、手机、甚至 Chromebook 都能直接享受。这就是显卡服务器聚合算力带来的规模效应。
资源利用率:一张卡掰成好几瓣用的艺术
你可能会问,一张顶级显卡这么贵,放在数据中心里,如果只给一个人用,那得收多少钱才能回本?这就引出了云游戏服务商必须解决的一个核心经济问题:如何高效地利用好每一张显卡的计算资源?
这就涉及到一个概念,叫GPU虚拟化或者多用户隔离。
传统的游戏引擎在设计的时候,默认是一张卡伺候一个人。但如果云服务商也这么干,成本太高了,根本做不下去。他们需要在保证游戏体验不下降的前提下,尽可能让一张卡同时服务更多的玩家。
这里面有个挺有意思的案例,是我在看论文的时候发现的。有个叫Capsule的技术方案,专门解决这个多玩家隔离的问题。这个技术实现的效果很惊人,同样是跑游戏,用了Capsule的方案,GPU计算资源少用了43%,显存少用了接近70%,CPU和内存的占用也大幅下降。最终结果是,同样一张显卡,能容纳的玩家数量是原来的2.25倍。
这就是显卡服务器的“软实力”了。单纯堆硬件谁都会,但能把硬件的利用率压榨到极致,同时还不让玩家觉得卡,这才是真本事。国外的云游戏厂商在调度算法和虚拟化技术上投入非常大,因为这个直接决定了他们的服务能不能在保证体验的同时,有一个可持续的商业模式。
比如说英伟达的方案里,用了GRID vGaming这种虚拟化软件,可以把一张高性能GPU切成好几个虚拟 GPU 分配给不同的用户。Imagination Technologies提出的方案里,甚至能做到单个GPU核心跑16个独立的操作系统,每个都互不干扰。这种技术上的精耕细作,才是国外显卡服务器方案能够大规模商用的底气。
边缘计算:解决“最后一公里”的延迟难题
性能和资源利用率解决了,还有一个更头疼的问题是延迟。
我刚才说,云游戏是把画面传到你家。这个传的过程需要时间。物理定律摆在这里,光在光纤里跑也是有速度上限的。服务器离你越远,延迟就越高,操作就越不跟手。
有个评测机构做过测试,从距离法兰克福数据中心1250公里的地方玩云游戏,网络延迟大概在22到29毫秒。这个数字其实已经很低了,但评测者依然能感觉到和本地玩游戏相比,有那么一点点“肉”的感觉,尤其是在玩《守望先锋》这种需要快速反应的对战游戏时,这种差距是能感知到的。
为了解决这个问题,国外的主流方案是“把服务器撒到离用户更近的地方”,也就是所谓的边缘计算节点。
英伟达的GeForce NOW在全球部署了大量的数据中心节点,而且还在不断扩充。Kolo这家数据中心服务商也提到,他们专门为云游戏设计了超低延迟的边缘基础设施,就建在离用户和媒体中心很近的地方,就是为了保证直播和云游戏的实时性。
这种分布式布局有什么好处呢?假设你住在一个二线城市,以前可能要连到北上广的服务器,现在可能隔壁省会城市就有边缘节点。物理距离缩短了,延迟自然就降下来了。这也是为什么泰国的TrueID能和Radian Arc、Blacknut合作,直接在本地的电信网络内部署GPU边缘节点。
当地的服务商把显卡服务器下沉到离用户最近的地方,哪怕是复杂的跨国网络环境,也能保证本地用户玩云游戏是流畅的。
芯片与架构的多元化探索
还有一个趋势也很有意思,就是国外的云游戏硬件正在变得越来越多元。以前大家提到GPU,基本就是英伟达一家独大。但现在,AMD凭借高性价比和优秀的开源生态在迎头赶上,Boosteroid的全套定制方案就是一个很好的证明。
还有一些以前做移动端GPU架构的公司,比如Imagination Technologies,也在往云游戏数据中心这个赛道挤。他们推出的E系列GPU,主打的就是多用户和高效率,单个核心就能跑16个虚拟机,还集成了AI加速能力。这说明云游戏市场已经大到足够容纳多种技术路线并存了。
总结
回顾一下,国外显卡服务器之所以能助力云游戏服务起飞,核心就在于三点。
第一,它们提供了远超普通个人电脑的算力天花板。当最新款的RTX 5080显卡刚发布时,GeForce NOW的用户可能已经在云端用上它来玩4K光追大作了。显卡服务器的快速迭代,让云游戏用户的硬件体验始终保持在第一梯队。
第二,它们在资源调度和虚拟化技术上抠到了极致。通过Capsule这样的高效隔离技术和精细化的调度算法,服务商能在保证流畅体验的前提下,让一张显卡服务更多人,把成本降下来,把规模做上去。
第三,它们通过遍布全球的边缘计算节点,物理上缩短了数据跑路的距离。不管你在欧洲还是东南亚,都能就近接入,把延迟控制在一个能接受的范围内。
当然,我也必须说,现在的云游戏并非完美无缺。即便是顶级的服务,在极致电竞场景下的微小延迟,以及视频流压缩带来的画面损失,依然是客观存在的物理瓶颈,短期内可能很难完全消除。
但这并不妨碍它成为一个改变游戏规则的产物。对于那些预算有限的学生、出差频繁的商务人士、或者是只想偶尔玩玩大作的轻度玩家来说,不需要花大价钱配一台高配电脑,只需要一个屏幕和稳定的网络,就能随时随地畅玩3A大作。这才是显卡服务器加持下,云游戏最迷人的地方。


