练习两年半之后,RTX 50系显卡终于来了。我面前的这两张显卡就是新旗舰,RTX 5090。没办法,咱们国内目前正式销售的只有5090D,所以我们今天就来看看这5090D到底表现如何,它比4090到底提升有多大,DLSS 4到底效果怎么样? 以及最关键的就是,5090D的游戏性能到底和5090有多少区别。恰好一位我们非常熟悉的大叔借给了我们一张没有“D”的5090!我们也可以一探这个“D”到底有多大的影响。
和4090D与4090的关系不太一样,5090D至少在纸面参数上
其实和5090是完全一样的:完全相同的CUDA核心数量,完全相同的Tensor Core数量,完全相同的96MB L2缓存,完全相同的32GB 512bit GDDR7显存。基本上相较于4090有超过30%的规模提升。那关于Blackwell架构的细节,可以参考我们上一期技术前瞻的内容。那个已经讲得很详细了,5090D并没有官方的FE版本。
这次我们总共收到了来自华硕和七彩虹的两张RTX 5090D,以及七彩虹的RTX 5090D AD。七彩虹这张5090D AD的体积相当扎实啊,两边两把11cm风扇、中间一把10cm风扇的配置,背板上开了通风口,但并没有在背面加排气风扇,整体的厚度接近四槽。AD在定位上应该是比较主流的,所以它的价格不会比官方指导价高出太多。ROG夜神5090D的体积则要再大一些,拥有正面三风扇、背面一把排风扇的散热设计。接下来,我们要不拆一下这张ROG夜神5090D。
先拿下风扇,可以看到这张卡用了一个8x8mm的散热模组,
散热面积相当大。拆掉散热器就可以看到PCB了,这张ROG 5090D的PCB相当豪华,总共16颗显存组成了32GB 512bit的显存规格。
上次看到这么多显存还是GTX 280啊!PCB焊满了18+6+7相供电,而且为了做尾部的排风扇设计,这次的ROG 5090D也做了类似公版4090的异形PCB设计。
然后呢,我们刮开核心上的7950相变硅脂,这颗就是5090D的GPU核心了。
这颗核心的代号是GB202-250,注意是250。
核心代号是有区别的。
因此,5090D想改成5090难度应该挺大的。这颗GB202核心的面积相当巨大,我们量出了约750平方毫米的核心面积。
在历代旗舰卡里也是和TU102并驾齐驱的超大核心,而封装大小就更大了。
几乎可以算是历代最大。512bit的显存控制器可不是闹着玩的。这次非常感谢Tony大叔、万扯淡和Kurnal三位老朋友。这颗GB202核心,可谓是成本爆炸!
完整规格的GB202核心总共有192组SM单元,总共是24576个CUDA核心。
中间巨大的SRAM区域是128MB的L2缓存。整颗核心的规模比起上代的AD102核心又大了不少。5090和5090D则是开启了其中的21760个CUDA核心和96MB L2缓存,阉割幅度和4090差不多。完整规模的GB202核心,应该是未来的RTX B6000和“B40”计算卡独享的。
游戏玩家就别打这个主意了。接下来咱们就来实际上机试试看,这RTX 5090D性能到底如何吧。
为了不造成CPU瓶颈,我们本次的测试平台选择了目前毫无争议游戏性能最强的CPU AMD 9800X3D。
搭配双槽DDR5-6000 C28内存,和ROG X870E Hero主板进行测试。除了5090D,我们也复测了老旗舰RTX 4090作为参照,以及完整5090设置到同样的频率和功耗墙来作为对比。
先来看看3DMark,在经典DX12测项 Time Spy 当中,
5090D的成绩差不多是48000多分,这个成绩比4090大约强了32%。5090的性能则是和5090D完全相同! 在压力更高的Time Spy Extreme当中,5090D依然和4090拉开了30%以上的差距,而5090则继续保持与5090D完全相同的性能。
不过在新的Steel Nomad测试里,5090两张卡倒是获得了巨大的优势。
比起4090强出了50%之多,但在Steel Nomad Light测试里,两代的差距又缩小到了30%以内。我们也跑了一下Port Royal光追测试,这里5090兄弟的性能比起4090强了约40%。
这个幅度呢,会比纯光栅化的测试的优势要更大一些。50系的光追效率的确是进一步提升了。
反正至少从跑分来看,5090D和5090的图形性能是完全相同的,没有任何区别。光看跑分的话我是有些失望的。那么实际游戏里它表现怎么样呢?DLSS 4效果又如何呢? 我们这次一共测试了10款游戏,对比5090、5090D和4090,一起来看看吧。首先玩几个不支持DLSS的游戏看看。选像《艾尔登法环》算是少数至今都不支持DLSS的大作了。
因为会触发反作弊影响线上。从结果来看。
另一个不支持DLSS的就是《绝地求生》(吃鸡)了。说起来,《绝地求生》(吃鸡)更多时候是个CPU和内存缓存瓶颈的游戏。
要不是因为有9800X3D,可能我们测出来根本就没有任何区别啊。反正现在这套平台上,跑4K全开的《绝地求生》,5090D能跑到220帧以上,提升约28%。是时候引入几个支持DLSS的游戏了。首先是2024年的优化大坑,《潜行者2:切尔诺贝利之心》。
提升约27%。
甚至连DLSS下的性能都没啥差别。
《荒野大镖客2》算是我们的老朋友了,作为7年前的老游戏。
至今仍然可以给旗舰显卡带来压力。
如果没有DLSS的帮助,4090也才刚跑到平均125帧。说起来,5090D在《荒野大镖客2》里的提升是相当不明显的,只有接近20%,并且这个游戏的DLSS效果也不是很显著。开了DLSS,5090D也就跑到了约174帧。
因此,开了DLSS超分后帧数也不会有任何改善。
之前测的这几个游戏,5090好像提升都蛮小的,感觉有点失望啊。那有没有5090提升比较大的游戏呢?但凡是喜欢拥抱最新图形技术的游戏。
5090D表现就还不错,比如说再次请出老朋友《赛博朋克2077》。说起来,《2077》也是个四朝元老了,你还记得它最早联名的显卡是哪款吗?是2080 Ti!
而且今天也正式更新支持了。
不得不说,《2077》至少在图形技术上,
底子确实不错。现如今路径追踪全开的《2077》,那个画质真的是太惊艳了,至今还没有哪款别的游戏能打。但代价就是,要是没有各种科技与优化的加持,你的确很难有好看的性能。哪怕不开光追,都已经提升了约44%。
那如果上点强度,开个OverDrive档光追。
性能自不必说,直接歇菜了。
这个时候4090只剩25帧默认,你会看到各种光追造成的拖影问题。就算你能忍受低帧率,你也绝对忍不了这个画质。
所以这个时候就需要引入DLSS来解决这个问题,因为只有帧率高上去了,光线采样充足才不容易出现伪影。先是不开补帧,总算是个可以玩的流畅度了。
那这个时候就要隆重介绍DLSS 4的多帧生成技术。所以这个补完帧后达到248帧的体验确实是丝般流畅。
看过我们4090首发评测的同学肯定知道,所以这个248帧其实并不是直接从79帧补上来的。应该说5090D的基础性能即便提升不大。
但应对现在的游戏还是已经相当强了。它很难出现原始帧开完DLSS平衡档还不到60帧的情况。我只是比较担心,在那些低端点的50系卡上,如果原始性能自身难保的话,还能不能保证补帧的效果?包括延迟等大家关心的方面,我们待会也会专门验证一下。
另外一个很看重图形技术的游戏是《心灵杀手2》。
这是PC端最早一批支持网格着色和路径追踪的游戏,而如今的《心灵杀手2》又第一时间更新了对Mega Geometry的支持,有望改善光追下的性能开销和画质。
在4K高预设不开DLSS的情况下,
5090D可以有约34%的提升,路径追踪的威力大家也都知道。
这个时候4090只剩36帧,这时候就要依靠DLSS了。先通过超分把帧数拉上到97帧。
都快跟不上5090D这补帧的步伐了。
还有一款支持DLSS 4的游戏是《霍格沃茨之遗》。
光追性能提升了约29%。
各种奇奇怪怪的CPU造成的小卡顿影响实际观感,其实DLSS 4对于这种情况也很难帮得了什么忙,只能靠游戏开发者进一步优化了。最后压轴登场的自然是《黑神话:悟空》了,相信大家也都知道,黑猴的性能要求真不是开玩笑的。甚至不开硬件光追只开UE5的Lumen,那叫一个酸爽。
开了DLSS超分之后确实缓解了不少。
但目前的版本还没更新。
5090D姑且可以跑到平均115帧。
总体看下来,5090D相比4090,如果我们撇开DLSS 4多帧生成的话,
在光追游戏里的提升是约33%。如果没记错的话,这大概是最近十年旗舰卡代际提升幅度最小的一次了。
考虑到如今N卡两年才一更新,要是没有DLSS 4的加持,这点点提升确实有点不够看。与此同时,国内特供的5090D目前来看,游戏性能是真的和5090没有半点区别。
DLSS性能也基本可以当误差来看。看来和4090D不一样,这次5090D的刀法确确实实没影响游戏性能。具体的机制可能要等到更多A测试之后才能得知。反正之前我们对5090D游戏性能的各种担忧,确实可以稍微放心一点了。
老黄既然敢于把这玩意端出来卖到更高的价格,
大概也是因为他对DLSS 4有信心。
这确实是能改变游戏规则的。比起平平无奇的性能提升,DLSS 4才是50系显卡真正的杀手锏。上次的前瞻已经和大家简单聊了DLSS 4的特性。
今天我们就来实际测试看看,DLSS 4的画质、帧数和延迟表现吧。
DLSS 4包含多重改进,其中我们首先要聊的是一个20系、30系、40系老卡也都能享受到的升级,就是它对超分辨率的处理方式进行了大刀阔斧的更新。
这是所有RTX显卡都可以用得上的新特性,就是把超分所使用的模型从CNN换到了Transformer。
就像我们上期说的,从CNN转向Transformer主要是为了让模型能够注意到更全局的画面信息。
CNN相对来说是以局部的方式进行超分,而Transformer则是更多以整个画面的信息进行超分。我们先用《赛博朋克2077》,统一开到性能档位的DLSS超分。在这个状态下,原生渲染分辨率为1080P超分到4K,非常适合来看看画质的区别。先来看第一个场景。
另一个在之前的DLSS版本当中容易发现的画面错误是画面里的细栏杆或者细电线。
当有显著运动时容易察觉到闪烁,就像是游戏不开抗锯齿一样的感觉。不过当前的Transformer版DLSS超分,也有几个很明显的穿帮场景。它对半透明物体的处理甚至比CNN版本更差。
目前的模型其实已经能做到理解画面了,但它可能还不知道好的画面是什么样。这个只能说未来可期。另一个我们发现的问题是反射。这里的车顶应该反射来自画面上方变化的霓虹灯板。
总的来说,Transformer版本的DLSS超分解决了一些CNN模型下难以解决的图形缺陷,再次提升了DLSS超分的可用性。最关键的是这一改变是所有RTX显卡都可以受益的。
要知道目前版本的DLSS超分效果, 已经非常接近原生画质了,Transformer无疑再次拔高了DLSS的上限。当然它还有一些小问题,它需要花时间优化一些注意力机制引入的问题。
考虑到目前还只是Beta版,我认为甚至可以期待未来DLSS画面观感无限接近甚至在细节上超越原生渲染的可能性。聊完超分就该聊聊帧生成了。这次DLSS 4的帧生成,把全链路都换成了AI模型来实现。这次的新方案不再像DLSS 3那样使用GPU内置的硬件光流单元,
而是使用Tensor Core进行光流计算。我知道你们有不少人是非常抵触开启帧生成的。
DLSS 3的效果虽然已经是业界一流了,
但帧率曲线不稳定等问题让人不满。那么DLSS 4有没有改善呢?咱们就来实际对比一下。看看都使用2×帧生成的情况下,DLSS 4相比DLSS 3有没有画质上的进步。
50系显卡引入了最高4倍帧生成,那在4倍帧生成下,画面的代价会不会很高呢?要知道这时候,16个像素里只有1个像素是实际渲染出来的。另一个我们关注的焦点是帧稳定性。之前40系DLSS 3的帧生成虽然帧数上去了,但帧生成时间未必稳定,尤其原始帧率如果比较低的话,补完帧滑动鼠标还是会觉得有点不连贯。
而50系这次全新引入了Flip Metering特性,通过GPU来控制帧间隔,
帮助DLSS 4稳帧减少帧生成的卡顿。这个东西好不好用呢?我们也专门测试了一下。这是DLSS 3没有稳帧的《赛博朋克2077》。
而这个是DLSS 4配合Flip Metering的帧生成时间。两个都是在原始60帧下开启两倍帧生成,你可以看出来稳帧之后的帧时间,离散度明显更低了。
我们计算变异系数,稳帧下偏离均值5%,而以前没有稳帧则是偏离均值8.7%。看来新技术的加持下,这波DLSS 4补帧确实稳了不少。我们在4K分辨率的显示器上实际游玩下来,这个4K 200fps的体验是真的爽,主观感受上确实很接近原生200fps。突然有一天你就可以玩到200fps的《赛博朋克2077》+路径追踪+4K了,而且如果我不告诉你,你甚至很难察觉到任何异样,这就是DLSS 4的威力。不过大家最关心的,必定还是DLSS 4的延迟。
我们这里就拿两个游戏来测测看,开启多帧生成看下延迟到底有多高。像《Alan Wake 2》,我们原生帧率可以跑到平均51帧。
这个时候测出来延迟是56ms。这个游戏应该默认就有开Reflex,所以延迟本身也不算特别高。那在这个基础上, 如果是开DLSS 3的补帧,会引入17ms的额外延迟,总延迟来到72ms。一方面,补帧本身的光流计算就会增加延迟;另一方面,我们在4090的评测里就讲过,补帧要消耗原本的GPU性能,这会导致原始帧率下降。
例如,它从51帧降到了42帧,然后再翻倍补到84帧。它的延迟应该是以42帧为基础去算,天然地就会增加一些延迟。而更新了DLSS 4之后可以看到,这个延迟确实明显降低了。如果是开两倍帧生成的话,现在的延迟仅仅只高出9ms,增加的延迟只有原来的一半。哪怕开三倍甚至四倍帧生成,延迟都还是比原来DLSS 3时候来得更低。
这除了新模型在延迟上的进步外,还有一方面是DLSS 4的性能消耗减少了,这点你可以从帧数上也能看出来,原始帧率的下降没有之前那么多了,延迟自然有所降低。当然,《心灵杀手2》现在还支持了新的Mega Geometry,这也会带来少许的性能提升。在另一个游戏《赛博朋克2077》里我们也测了一下,这里面DLSS 4的延迟也是有所改进的。
原始性能的损耗有减少,但没有《心灵杀手2》那么明显。同为两倍帧生成的情况下,DLSS 4的延迟只低了约1ms的样子。
不过补到4倍帧率好像也没增加多少延迟。补帧是会强制开启Reflex的,N卡只要开了Reflex,延迟就已经能比原生低很多了。像《赛博朋克2077》这里,跑60帧原生延迟高达70ms,开了Reflex本来就能降低一半延迟。开启帧生成其实就是把省下来的这些延迟稍微花出去一点用来提高帧率。在这种原始帧率够高的情况下倒是无伤大雅。我觉得最存疑的情况反而是低帧率下的补帧表现。延迟上它就是个30帧的延迟,肯定不跟手。但考虑到原始帧率也就那点点,如果你能接受云游戏的延迟,那这个其实也还凑合。但你要说这个体验有多好,那也并没有。
玩久了你还是能感受到各种低帧带来的伪影。一方面,UI文字的各种破图很容易出戏;另一方面,有些情况并不是很好做帧预测。在这么低的原始帧率下,如果瞄准镜轮廓比较大,正好把画面隔绝开了, 那镜子里的画面就会随着你的移动各种抽搐,完全没法正常补帧。给人的观感是镜子外面虽然有120帧,但镜子里还是只有30帧,外加各种破图伪影。这个体验真的不是很好。反正DLSS 4的补帧,最好还是确保不开补帧时的原始帧率能跑45帧以上,才能保证不会有太严重的破图。不过我们还是想整点更骚的活。要知道5090D之所以要加个“D”,就是因为要限制AI性能。
我也很好奇这5090D的AI性能到底如何,会不会阉割到4090的水平,和5090又有多大差距。我们用Llama部署了一个32B的通义千问2.5模型,让它翻译《出师表》,来记录它的吐词速度。最终5090和5090D跑出了几乎完全相同的成绩,比起4090提升了约50%。
512bit的GDDR7显存带宽非常猛啊。不过Llama毕竟是一个显存带宽瓶颈的场景,并不太吃核心算力。
我们又使用了UL Procyon测试套件, 来测试一下它们的AI性能。
结果5090D依然和5090一样,比起4090在FP16和FP8的性能上,有接近50%的进步幅度。Blackwell架构重点优化的FP4性能确实非常亮眼。只不过目前FP4量化的模型还不是非常普遍,具体是不是足够实用还要看未来的发展。反正目前这些A测试还看不出5090D到底阉割了啥,只有等PyTorch更新之后,才能得到这个答案了。
刚好今天又更新了12.8版本的CUDA Toolkit,于是我们光速编译了一个兼容5090D的PyTorch,
搭建了一个微调BERT的环境,来看看新卡在不同数据类型下训练AI的性能。结果,不管是传统的FP32和FP16,
还是英伟达新推出的TF32, 还是大模型常用的BF16,反正现在我们测试的所有这些项目里,5090D和5090并没有测出什么不同。
也许在某些场景下5090D会有一些限制,但这只能等之后慢慢发掘了。最后我们也简单测试了新卡在PR和Blender两款典型生产力场景当中的性能。
由于编解码器大幅升级,PR里5090D的提升非常显著,相较于4090有比较大幅度的进步。可以参考一下隔壁影视飓风,他们做了比较详细的视频编解码能力测试。
而在离线光追渲染测试Blender当中,Monster和Classroom两项测试,
5090D相较于4090提升了约30%,在Junkshop测试里则提升了超过40%。这个提升幅度也符合两者规格的差距。值得一提的是,5090D这次的32GB大显存对生产力应用来说非常重要。我们后期之前用的4090的24GB显存其实经常会爆。
后来换了48GB的6000 Ada问题就得到了解决。看起来现在5090也可以满足大部分生产力的显存需求了。聊完了性能,咱们也该来看看5090的功耗表现了。老实说,这次这个575W的TGP简直是非常吓人。我们记录了它在运行3DMark Time Spy时的功耗表现。在第一个场景当中,
其实是撞不到功耗墙的。即便是压力巨大的GT2场景,也只有非常偶尔的情况才会撞墙。
因此它的实际功耗在绝大部分情况下是低于575W的。但如果和上代4090做对比,那么5090的平均功耗增加的还是相当显著的,大约有30%左右的功耗提升。基本上可以说提升了多少性能就多消耗了多少功耗,能耗比几乎是原地踏步的。它也成功成为了历史上功耗最高的一代大核弹。但从上代40系开始,非公显卡的散热都豪华得吓人。我们手上这张极为重量级的ROG夜神5090D,默认功耗墙就有600W,
完全可以喂饱GB202核心。
最终我们把它超频到了3.1GHz以上,Time Spy跑到了35000分。
这个成绩相较于默认状态下大约可以提升10%的性能,对于旗舰卡来说也算是一个可观的提升幅度了。
只可惜国内没有5090DFE,我是真的很好奇这么一个超级大核弹,怎么才能用一个薄薄的双槽散热器压住,只能以后想方设法搞一张5090FE来试试看了。
总的来说,这5090论本身的性能进步、能效进步,我真的只能用乏善可陈来形容。尽管图形管线技术上,NV拿出了不少新思路,尤其是AI会越来越渗透入未来的游戏开发。
50系你可以说是新时代的起点吧,但是这个起点,对于只是现在买回去玩现在这些游戏的发烧友来说,实在有点太低了。750平方毫米的核心面积这么大一颗芯片,居然只有两年30%的代际提升。我不得不问一句,GPU传统性能的发展真的到头了吗? 它唯一的亮点就是那32GB显存了。
买来干活可能确实值那个价。说不定以后的GPU全都得依赖软件进步了。好在DLSS 4的多帧生成确实给我留下了很深刻的印象,哪怕在严格的A/B比较下我也没有明显感觉出它的代价。直观感受就是流畅度明显提升了,同时延迟并没有高很多。这拼好帧的预制菜做得也不难吃啊。
但是它仍然需要你达到一定的基础帧率,比如45帧以上才能合格地工作。也是因此,多帧生成对5090这种高端卡来说,确实好用啊,但对以后的5060这种卡来说,可就不一定了。
更多主流玩家需要的是从30帧翻到60帧,而不是从60帧翻到200帧。国内特供的5090D倒是让我们松了口气,这对于游戏表现几乎没有任何影响,
甚至连DLSS都没有影响。如果你完全不做AI就只是打游戏,那确实不用担心特供版这个“D”。反正这一代5090吧,用一句话来总结,就是纵使它继续称王,但也没啥惊喜,只靠科技与狠活。那么以上就是5090首发测试的全部内容了。喜欢我们这期节目的话,别忘了点赞、转发、收藏,支持我们一下。
这期节目做得非常不容易啊,DLSS那么多录屏我们真的快要累死了。那么也祝大家新年快乐,我们下期节目再见。