NVIDIA RTX 30系列架构的详细讲解_乐鱼体育电脑版_乐鱼全站app登录网页版链接入口

首页 > 乐鱼体育电脑版

来源：乐鱼体育电脑版发布时间：2023-12-11 07:04:45

在线咨询乐鱼全站app登录入口

151-6666-5513

被玩家爱且恨着——他们带来了最近十多年来最好的显卡，同时也让高端游戏卡的价格高企，发烧显卡至少五位数起。

在RTX 30系列显卡发布之后，玩家的不满似乎释然了，相比当前的图灵显卡，安培架构的RTX 3090／3080／3070显卡一下子变得真香了，因为它们性能翻倍不说，国内价格反而下降了。

从这个规格表中能够准确的看出，与RTX 2080 Ti显卡相比，RTX 3090的标志性FP32性能从13．4T提升到了35．7T，翻倍还多，光追及AI加速提升也同样明显。

与图灵显卡相比，安培GPU的变化之大让人惊讶，在过去十多年的显卡升级换代中，性能翻倍的提升很少见到了，NVIDA是怎么做到的？

今天我们就来从详细地理解阅读一下安培GPU的架构，探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

对于来说，很关键的一部分是制程工艺，先进的架构也要通过工艺来实现，这是影响芯片能效、性能甚至成本的一大因素。

对NVIDIA来说，他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了，这是台积电16nm工艺的改进版，如果再算上16nm的Pascal架构，实际上过去三代GPU都没有重大工艺上的升级了。

在Ampere安培架构上，NVIDIA终于升级工艺了，只不过这次有两个意外——首先没选台积电，其次没有上7nm，而是三星定制的8nm工艺，虽然跟7nm看起来只差了1nm，但其实就是两代工艺。

考虑到NVIDIA之前对工艺的表态，没用7nm工艺而是三星8nm工艺又在意料之中，最关键的问题就在于NVIDIA能做到多好。

三星的8nm工艺是基于10nm工艺改良的，至少有LPP和LPU两个版本，前者适合移动SoC，后者适合高性能芯片，NVIDIA的定制大概是基于后者。

与台积电的7nm工艺晶体管密度大约1亿／mm2相比，8nm工艺大概是6000万晶体管／mm2，但这是单一的SRAM芯片的对比，实际上GPU芯片很复杂，差距会缩小很多。

根据是NVIDIA公布的信息，台积电7nm工艺制造的安培A100核心是540亿晶体管，核心面积826mm2，而三星8nm工艺制造的GA102核心是280亿晶体管，核心面积官方没公布，据悉是628mm2，也是大核心了。

这么算下来，7nm A100核心的晶体管密度6560万晶体管／mm2，而三星8nm的GA102核心也有4460万晶体管／mm2——差距仍在，但似乎可接受了。

三星8nm工艺的晶圆代工价格还是秘密，但是不论技术还是商业策略上，三星都会比台积电便宜很多，预计代工价格能差30％或者更高，所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

那三星8nm工艺带来了多大的性能及能效提升呢？首先你们可以看到RTX 30系列显卡的频率提升了，从RTX 20系列的1．5GHz＋提升到了1．7GHz＋，升级工艺还是有性能提升的。

不过RTX 20系列的加速频率实际能够达到1．9GHz甚至接近2GHz，RTX 30系列预计也就这个水平。

但是能效还是有提升的，NVIDIA官方称在60fps性能下，图灵显卡的功耗大约有240W，安培显卡则是120W多点，算下来是1．9倍能效，提升了90％，同时温度还低了3度，噪音减少2分贝。

总的来说，在工艺这方面大家对安培GPU有惊喜有失望，失望的是没有上预期中的7nm工艺（不管台积电还是三星），工艺依然升级到了8nm。

但是NVIDIA工艺虽然并不算激进，但性能、能效进步还是挺大的，安培显卡各方面指标都是大幅胜过现在的图灵卡，且价格做到了不升反降，这也是不追求激进工艺的好处，反正之前12nm都能赢，现在上8nm更加稳妥了。

发布安培的时候，NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃，而2018年推出图灵GPU时，老黄也是类似的说词——GPU有史以来最大的变革，这两个评价其实也没错。

图灵GPU架构有很多第一次，首次支持RTX Core（光追加速单元），首次支持Tensor Core，同时还改进了CUDA内核，不过前两个是重点。

在安培GPU上，RT Core、Tensor Core当然继续加强，不过最主要的亮点是CUDA架构的改进，性能翻倍的根源就在这里，我们先来看看这方面的变化。

按照之前图灵GPU的路线走，安培GPU的SM单元增加的并不多，但实际上FP32性能翻倍了还多，算上频率，RTX 3080的理论性能差不多是RTX 2080的三倍了，这是怎么做到的？

答案就是CUDA核心的FP32翻倍，但翻倍的方式有点特殊，每个SM单元中有4个分区，每个分区除了第三代Tensor Core核心之外，还有一组是16个FP32单元及16个FP32、16个IN32组成的单元，后者可以同时执行FP32或者INT32运算。

只算FP32浮点的话，那么就是浮点翻倍了，因为图灵以及GA100都是每周期64个FP32浮点而已，现在可以做128个FP32运算了。

提升FP32性能不论对游戏还是运算都大有裨益，但也需要配套的提升，GA102的L1容量提升了33％，L1带宽从116GB／s翻倍到219GB／s，共享内存的性能也从每周期64B翻倍到128B。

乐鱼体育电脑版