APP下载

英伟达的RTX卡是对游戏未来的一场赌博

消息来源:baojiabao.com 作者: 发布时间:2026-04-24

报价宝综合消息英伟达的RTX卡是对游戏未来的一场赌博

英伟达的RTX系列gpu已经有很长一段时间了。该公司最近一次有意义的硬件升级是在2016年5月推出的10系列。而实时光线追踪技术(RTX cards据称使其成为现实的密集渲染技术)几十年来一直是人们梦寐以求的。但是,尽管RTX并没有占据那么多的头条,但它带来的最重要的变化是从原始力量向算法和人工智能的转变。

但是,我有点过头了。首先,让我们快速看看英伟达到底想卖给你什么。下周,两款售价700美元的RTX 2080和售价1000美元的RTX 2080 Ti将争夺你的现金,10月份紧随其后的是售价500美元的RTX 2070。

从底部开始,就原始功率而言,RTX 2070大致相当于GTX 1080;rtx2080与gtx1080 Ti完全一致;rtx2080 Ti是它自己的联盟。2070和2080有8GB的GDDR6 RAM;2080 Ti有11GB。这三家公司都是基于公司新的图灵架构,这意味着他们有专门用于AI(张量)和光线追踪(RT)的核心。预计第四张可能是RTX 2060,它将在未来几个月大幅降低入门价格,随后是一系列针对预算较低的玩家的降价选择(10系列的价格降至100美元以下的GTX 1030)。在顶部也有扩展空间:RTX 2080 Ti Founders Edition能够每秒处理14.2万亿的浮点运算(TFLOPS),而图灵图102芯片这些新卡是基于推高达16.3 TFLOPS的数据。这是通过更高的时钟速度和更多CUDA核心(2080 Ti有4,352个,完全配置的TU102有4,608个)的组合来实现的。

RTX也带来了很多幕后改进。有一个更快的缓存系统,它有一个共享的内存体系结构、一个新的图形管道以及浮点和整数计算的并发处理。如果这对您没有任何意义,那么不要太担心:从soup这个词中可以得到的启示是,RTX范围不仅具有更强大的原始功能,而且能够更有效地使用这些功能。

这就是关键。Ray-tracing占据了新闻头条,我对开发者如何使用它很感兴趣,但是它的效率确实让我对RTX感到兴奋。游戏系统的最终目标,无论是2000美元的游戏PC还是300美元的任天堂交换机,都是计算屏幕上每个像素的颜色值。即使是一个关于现代图形管道如何工作的简化指南,也会有中篇小说那么长的篇幅,但这里有一个三句话的总结:cpu不是用来呈现现代图形的。相反,CPU会向GPU发送它想要绘制的图形的计划,GPU有数百或数千个内核,可以独立地在图像的小块上工作。GPU在CPU计划上执行,运行着色器——非常小的程序——来定义每个像素的颜色。

那么,对于图形卡制造商和游戏开发者来说,挑战在于规模。这款售价300美元的交换机在便携模式下通常每秒能计算2700万像素的值,而使用三年的移动英伟达(NVIDIA)芯片也能做到这一点。如果你的目标是4K帧数为60FPS(这是许多购买RTX卡的玩家想要的),你的系统需要每秒推出近5亿像素。这给系统带来了巨大的压力,尤其是当你认为你的PC机不是凭空挑选这些颜色,而是实时模拟复杂的3D环境作为计算的一部分时。

已经有很多技术可以用来减少这种压力。一种是以较低的分辨率渲染场景的全部或部分,并将结果拉伸出来。当你的游戏在1080p的屏幕上以720p运行时,这是非常明显的,但是当雾云在四分之一分辨率下被绘制时就不那么明显了。这就是英伟达的优化目的:在你不会注意到的地方降低质量。

英伟达的新图形管道可以采用几种新的阴影技术来裁剪拐角。在很多方面,这都是建立在虚拟现实中不太灵活的节能措施上的,比如MRS(多分辨率阴影)和LMS(镜头匹配阴影)。在上图中,你可以看到一个GPU实时地将一个场景分解成网格。未着色的方块是高细节的,并以1:1的比例着色,就像一个常规的游戏场景。彩色的不需要同样的注意力。例如,红色方块只使用4x4像素的方块着色,而更详细但不重要的蓝色方块使用2x2方块着色。由于图像中这些区域的细节水平较低,这种变化基本上是不明显的。

你可以采用这个基本的概念,像素着色率不需要在整个图像中固定,并以有针对性的方式应用它。在赛车游戏中,你的目光基本上集中在你的汽车和地平线上。屏幕中央和上半部分的像素可以按1:1填充,但角落可以是4x4。(当然,2x2和2x1会在过渡过程中出现阻碍。)英伟达表示,这在运动中基本上是不可感知的,可以减少材质内核的负载,从而提高帧速率。

英伟达正在开发更高级的着色技术,例如,允许开发人员在多个框架上重用纹理着色,或者改变你眼睛无法分辨的移动对象的着色质量。它们都是效率游戏,旨在从相同的硬件中榨取更多。上个月在RTX发布会上展示的一个例子是《沃尔芬斯坦2:运行自适应阴影的新巨人》:英伟达表示,它可以提供15%到20%的帧率改进,而对图像的影响可以忽略不计。但是,如果你能完全移除这些阴影核心的负载呢?这就是DLSS(深度学习超级抽样)背后的概念。DLSS是一种新的反锯齿(AA),一种应用于平滑粗糙边缘的游戏的效果。它根本不运行在CUDA核上,而是使用AI和新的张量核。

对于DLSS, NVIDIA使用超级计算机创建了一个特定于游戏的算法。再一次简化了解释,超级计算机查看了超高分辨率的图像,并将数据与低分辨率版本进行了比较。然后,它将尝试数百万次失败,以找到一种方法,使低分辨率的图像看起来像超高分辨率的图像。一旦成功,英伟达就会打包游戏的算法,并通过其GeForce体验应用程序发送给玩家使用。

在实践中,它看起来非常棒。结果通常比你在许多现代游戏中看到的TAA(时间抗混叠)更尖锐。和所有的AA技术一样,它也有自己的优点和缺点:它在解析细节方面的能力令人难以置信,而直边并不总是完美无缺的。尽管我个人更喜欢它,而不是我见过的任何TAA实现,但它存在的事实可能就足够了:这是免费的AA。特别是如果你是那种运行MSAA之类的程序的人,你可以节省大量的GPU能力,以获得非常相似的结果。

像所有的AA技术一样,DLSS也有它的优点和缺点。

DLSS的主要限制是兼容性:NVIDIA需要为每个游戏创建一个自定义算法。如果游戏开发者感兴趣,它将免费提供这项服务,但不知道有多少人会接受该公司的提议。英伟达在硬件锁定功能(如发际摆饰)上的使用率通常并不高。但据称DLSS对于开发者来说几乎不需要什么工作,所以它可能会流行起来。还有一些游戏即将推出,包括《最终幻想15》、《杀手2》、《PUBG》和《古墓丽影》。

最后,英伟达展示了一个非常令人印象深刻的演示,演示了一个充满几何形状的小行星场。CPU没有要求GPU绘制每个小行星,而是发送了一个对象列表。这个列表随后被处理、绘制并覆盖在数千个核上。这种CPU-GPU通信的新方法在很大程度上消除了一个常见的瓶颈,即当游戏中发生太多事情时,坦克帧速率会下降,同时也会增加场景的复杂性。

演示中显示的技术还可以改变开发人员处理lod(详细级别设置)的方式。lod定义对象和纹理被载入到场景中的距离。虽然在主机上通常是静态定义的,但在PC上您通常可以选择低、中、高等等。在史诗设置上玩游戏,你会看到草,树,建筑和类似的东西呈现在地平线上。在低处,只有一小部分树叶会被渲染,远处的建筑可能会消失或被低多边形占位符取代。

细节级别集成到CPU发送给GPU的列表中:开发人员创建大量高质量资产,然后GPU不断扫描场景,根据屏幕上对象的大小指定在任何给定时间显示哪些内容。这允许高质量的资产在只占用几个像素的时候减少到粗糙的几何形状。这种技术可以适用于遵循动态分辨率原则,调整非关键对象的质量,而不仅仅是原始分辨率,从而进一步提高性能。所有这些提高性能的新策略——英伟达白皮书中的内容比我刚刚提到的要多得多——对于未来几年的游戏来说,都比光线追踪大得多。尽管我们不得不等待评论的到来,但很有可能,在我们现有的硬件上,实时光线追踪只是提供了一个次要的视觉装饰。但是DLSS和可变阴影的好处是立竿见影的,超过了三张RTX卡,甚至超过了英伟达。

你不需要继续提升权力的想法是令人信服的。我们已经接近硅的极限了,我们已经看到每年的原材料价格上涨从一个跳跃到一个混乱。

“云”经常被引用作为一个模糊的修复,但它不可能是唯一的答案。一旦世界沉浸在高速互联网接入之中,转移负载就会有所帮助,但最终,数据中心的设计师无法接触到迄今为止从未被描述过的奇异材料,他们将面临与消费者同样的性能限制。随着显示器制造商对分辨率的渴望越来越高,而人类也越来越渴望买到更好的东西,我们需要找到更智能的方式来呈现我们的游戏。

很难看到显卡能够实时呈现一款8K的游戏,如果没有像英伟达那样的人工智能和流水线上的改进,英伟达就很难宣传其新卡。当然,这些进步不仅仅来自英伟达;我们需要看到AMD的gpu将AI繁忙的工作卸下,而微软和Khronos必须将这些新想法整合到DirectX和Vulkan中。(为此,英伟达表示打算将其高级遮阳技术添加到DirectX中。)

当参与制作我们的游戏的公司想出更多的节约能源的方法时,整个行业都会感受到好处。同样的技术可以让2080 Ti在60FPS下达到4K,也可以帮助供电,例如,一个开关2,它在运行时的危害要小得多。考虑到英伟达已经在交换机中制造了芯片,这两家公司未来的游戏机几乎没有理由不能添加一些张量核心,从而大幅减少需要阴影的像素数量,或者运行超级采样的AA通道来掩盖低渲染分辨率。就在昨天,苹果公司宣布其新的手机芯片有8个核心用于运行人工智能——这种向更智能计算的转变即将到来,所有玩家都将从中受益。



2018-09-17 00:31:00

相关文章