英伟达最强消费级显卡RTX 3090出炉：性能翻倍，半价买泰坦

2020-09-02新闻40

机器之心报道

英伟达说，这是PC游戏领域自1999年以来取得的最大突破。

对于全球游戏玩家和AI从业者来说，一个重要时刻到来了。

刚刚，同样是在自家厨房，英伟达创始人黄仁勋向世人发布了最新一代消费级显卡GeForceRTX30系列的最初三个型号GeForceRTX3070、RTX3080、RTX3090。

「无论性能还是能效，安培架构GPU都是图灵的两倍，」黄仁勋说道。「从架构、定制流程设计、电路、逻辑、封装、seriesIO、显存、供电、散热、软件和算法……我们在所有层面压榨GPU的性能，最终实现了世界水平。」

剧透：壁橱抹刀瓶后有惊喜。

关于这次发布，网上早已有各类信息提前曝光。但大家最为关心的就是GeForceRTX30系列的性能与报价。用老黄的话说就是，与2080价位相同，但速度提升了一倍。而3090更是GPU中的猛兽，黄仁勋称之为BFGPU（bigferocious）。

这些公版GPU的国行价格也第一时间出现在了英伟达中国官网上：

当今最强GPU

在深度学习、光线追踪的一系列热场后，黄仁勋突然从放置抹刀的瓶子后，拿出了了一块RTX3080，开始正式介绍RTX30系列。

总体来说，GeForceRTX30系列确实占据了GPU界的多项「第一」：首款有着24GBGDDR6X显存的游戏图形卡；首批支持HDMI2.1的GPU，一块显卡即可实现4k高刷新率或8k游戏；首批支持AV1编译码器的独立GPU，实现以更少的带宽观看更高分辨率的视频流。

最大号的GeForceRTX3090，当然还是要从烤箱里拿出来。

RTX3090是世界上第一个8K游戏GPU。为什么一定要8K？在英伟达看来，分辨率的提高会让视觉效果更加清晰锐利，让玩家更好地辨认出远方的游戏元素，以及让细节更加真实，比如头发、衣服缝线和皮肤皱纹。

这款显卡更类似于Titan系列，比上一代「正常范围内」的最高级显卡GeForceRTX2080Ti的性能要强大许多。RTX3090将于9月24日上市，起始价为1499美元。如果说没有传说中40G显存的新泰坦，它就是旗舰GPU了。

在具体参数上，RTX3090使用代号为GA102的核心，和前代泰坦一样拥有24G显存，但型号升级为DDR6X（镁光提供），显存速度19.5Gbps，384bit位宽，拥有10496个等效CUDA核心，相比GeForceRTX2080Ti，3090的核心数量增加一倍不止，功耗则达到了350W。

另外，RTX3080是320bit位宽，内建8704个CUDA，显存10G，功耗320W。RTX3070则有5888个CUDA。

相比之下，2080Ti的CUDA核心是4300个，所以黄仁勋在发布中说3070性能超过2080Ti，看来是没什么问题的。

单从核心数量上来看，这巨大的提升让最近买了RTX20系列的人有了四九年入国军的感觉。不过需要注意的是，英伟达官方标记的数据是等效核心，与之前的物理核心不同。

这些显卡均支持PCIe4.0，还有HDMI2.1和DP1.4a等接口，并内含第二代光追核心RTXCore、第三代张量核心TensorCore。

可以看到，RTX3090和RTX3080显存容量差距较大，这或许是在为稍后推出的RTX3080Super留位置。另外，3090的24G内存和1399美元的价格或许能够让很多对深度学习有需求的用户省下买泰坦的预算。如果你真的想要「TitanAmpere」，预计它会是一个显存40G，售价3000美元的夸张显卡。

另外需要注意的是GPU代工厂，今天发布的GeForceRTX30系列均采用了三星的8纳米制程「英伟达定制工艺」，选择三星而不是台积电，不知是出于什么样的考虑。

安培架构，AI算力再上台阶

这些强大的GPU，采用的都是今年5月刚刚推出的最新7纳米制程架构安培（Ampere），其首先被TeslaA100所采用。

在当时的GTC大会上，英伟达推出的安培架构计算卡A100，成为了当时人类制造出的最大7纳米制程芯片。这块AI计算卡采用先进的台积电（TSMC）7纳米工艺，拥有540亿个晶体管，它还是一块3D堆叠芯片，面积高达826mm^2，最大功率达到了400W。

除了制程提高，安培架构还有一些针对AI计算特有的机制，其中的三代TensorCore会对稀疏张量运算进行特别加速：执行速度提高一倍，也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系统会自动将数据转为TF32格式加速运算，现在你无需修改任何代码量化了，直接自动训练即可。

针对稀疏矩阵的加速可以让安培架构GPU处理AI任务的效率提高一倍。

最终在跑AI模型时，如果用PyTorch框架，相比上一代V100芯片，A100在BERT模型的训练上性能提升6倍，BERT推断时性能提升7倍。

不过由于消费级和专业级芯片的结构不尽相同，我们不能把AmpereA100芯片的AI训练性能简单地直接拿来作为参考，还需要等待官方公布，以及最终实测的数据。

黄仁勋表示，GeForceRTX30系列显卡具备三项基础处理技术：30TFLOPS算力的可编程着色器（Turing架构是11），双倍吞吐量，用于光追的RTCore（58RTTFLOPS，Turing架构是34），以及可自动忽略次要DNN权重的TensorCore（238TensorTFLOPS，旧版为89）。

三个方面，性能相比前一代都是翻倍。

AI是目前科技领域最强大的技术力量，可以让计算机从大量数据中学习知识，甚至据此编写出软件。在图形领域，我们仍然可以通过TensorCore的力量增强视频的画面。「我们现在可以只计算低分辨率图像的光追，再用TensorCore通过DLSS将其还原成高分辨率，同时还能提高画面帧率。」黄仁勋说道。

英伟达通过自己的超级计算机训练了多种不同场景的图像，并将训练好的模型以显卡驱动的程序安置在你的电脑中。在游戏运行时，AI会通过上一帧高清图对现有低分辨图进行渲染，最终达到超过原画的效果。据介绍，在最新版的DLSS2.0上，TensorCore可以把RTX的性能提升一倍——这也意味着游戏的有效帧数可以变成两倍，现在光线追踪、高分辨率和高帧率可以同时拥有了。

用它来打游戏会是什么样？

除了新的图像增强工具DLSS2.0，随着安培架构的GeForce显卡，英伟达推出了NvidiaReflex、NvidiaBroadcast、Machinima等工具，基于RTX的强大算力，现在人们不仅可以获得更好的游戏画面，也可以在游戏时获得更低的延迟、直播时屏蔽环境噪音，替换背景，实现绿幕效果、甚至直接用游戏里的元素创作出你想要的电影。

如今，大型3D游戏的容量已经超过了200G，大量图像材质需要从被解压缩，进而交由GPU处理。在使用了PCIe-4和固态硬盘之后，CPU解压缩成为了这个流程的瓶颈。现在，通过新技术RTXIO，GPU可以无损进行解压缩工作了。

自TurnerWhitted等人首次发表光线追踪的论文以来，已过去了40年，如今这项技术从计算及图形的圣杯变成了人人都可以体验的实时游戏画面。黄仁勋还宣布《堡垒之夜》已经支持英伟达的光线追踪技术。「现在，全球排名前二的最受欢迎游戏，《我的世界》和《堡垒之夜》，都已支持光追。」黄仁勋说道。

为了让新一代GeForce显卡能够充分发挥作用，英伟达还发布了一款夸张的360Hz刷新率G-Sync屏幕，预计今年秋天就会出现在宏基、华硕、微星、外星人等品牌的电脑配置单上。

几个月前，黄仁勋在GTC上展示了Turing进行数百光源的光追实时渲染的Marbles撞球游戏视频，使用TuringRTXQuadro8000，达到720p25帧。而使用安培架构的GPU，现在我们可以实现1440p、30帧，并增加更多的特效，这是超过四倍的性能。

还想要更好的效果？你也可以通过NVLink把两张GeForceRTX3090进行SLI，以达到性能的大幅度扩展。不过看看一张卡的价格，这种事估计只有玩微软模拟飞行的时候才会有人干吧。

最后，对于RTX3090在常规任务中的性能，目前已有了一些传闻，据称基于GA102的未定型显卡在未优化完整的游戏中以4K分辨率跑起来比RTX2080Ti的帧数高40％，而优化过的游戏中性能更是要高出50％，在针对安培架构进行优化最佳情况下，性能提升可高达70％。想要在4K分辨率下看高刷新率画面，现在不是问题了。