在NVIDIA 7900显卡即G71推出后,NVIDIA与ATI核心架构差异就变得非常明显了。大家最为熟悉的可能是在NVIDIA显卡上除了传统的核心频率和显存频率外,多了一个Shader频率。而且它将非常明显影响到显卡的性能。我们也在8800GTS 320M推出时做过Shader频率超频测试,当Shader频率从默认1200MHz提高到1600MHz时,性能已经赶超8800GTX了。但是,ATI的产品并不存在这样一个Shader频率,或者说它的Shader和核心外部的工作频率是一致的。
再结合我们前文介绍产品规格时谈到的流处理单元的数量,ATI R600的320个与G80的128个或96个,差距如此巨大到底是什么原因?
![]() |
![]() |
![]() |
所谓320个流处理单元,即320个标量处理单元。上图中央大量的每5个为一组的黄色方块示意的则是这320个标量处理单元即320个Scalar。按照R600的规格,它具有64条流处理渲染管线,每条管弦中是一个5路的Superscalar 处理器,这5个单元都每时钟周期都可以用作Componments也可以用作instructions。从另一个角度来看,每5个单元仍被认为是一个矢量运算单元(Vector ALU)。而值得注意的是,NVIDIA在G80上采用的称之为超标量运算单元。
在我们常见的对每个像素的渲染中,无论是PS的RGBA四个通道(A:alpha通道)的渲染还是Vertex XYZW四个轴位置改变的渲染,大多为4个通道并行处理即4D 矢量操作。当然,并不是说所有的渲染都是4D渲染,在渲染中肯定存在1D、2D、3D的操作。那么,此时矢量处理单元必然存在浪费。而NVIDIA采用超标量(完全标量)化的运算单元处理,将所有多维度运算均看作多个一维运算,完全避免了上面谈到的浪费。
当然,NVIDIA的G80由于只有128个或96个处理单元,所以NVIDIA给他们更高的运行频率,因为NVIDIA认为在今后的GPU应用中处理部分要比ROP输出部分负担更重。ATI的设计其实也与此观点不谋而合,只不过实现的方式不同。简单的看,ATI的处理单元仍可能是矢量处理单元,但如果将每一组矢量单元看作独立的标量单元,那么数量众多达到了320个。运行频率与核心频率一致,相对NVIDIA来说处于较低水平。NVIDIA,完全标量化的处理单元数量虽少,但是NVIDIA让这部分运行频率提高,整体运算能力也随之提高。
| 第1页:ATI首款DX10级别显卡发布 | 第2页:Radeon2900XT规格的优势与遗憾 |
| 第3页:半年后重看DX10统一渲染架构优势 | 第4页:ATI R600核心架构与NVIDIA的不同 |
| 第5页:第二代环形总线技术等架构特点 | 第6页:重达两斤,HD2900XT拆解分析 |
| 第7页:2900XT定位与测试对手的选择说明 | 第8页:高清HDMI输出与显卡声卡2合1演示 |
| 第9页:3DMark 20%领先,轻松干掉8800GTS | 第10页:2900XT,OpenGL测试竟然翻身了! |
| 第11页:两种光源S.T.A.L.K.E.R.测试 | 第12页:HDR+AA又胜,N卡还是不行! |
| 第13页:《英雄连》及游戏测试问题说明 | 第14页:8800GTX/超频GTS能否战胜2900XT |
| 第15页:Farcry,Quake4,8800GTX能否胜利? | 第16页:WindowsXP操作系统下对比测试 |
| 第17页:80nm和7亿个晶体管,功耗是大是.. | 第18页:定价=定位吗?R600大胜背后的思考 |