GT200的并行运算架构,GPU Computing的基础
![]() |
GT200的架构称之为NVIDIA第二代统一架构,其主要的运算单元仍然是由数量众多的Streaming Processor所组成的处理器阵列,NVIDIA将这个阵列称之为TPC(Texture Processing Clusters),每个阵列包含若干个SM(streaming multiprocessors),每个SM中Streaming Processor是8个。通过上图我们可以看到GT200一共有10个TPC,每个TPC由3个SM组成,超出G80的8个和2个,每个SM的Streaming Processor core数量和G80一样保持为8个,这样一颗完整的GT200芯片所包含的Streaming Processor数量就是8×3×10=240个,远超G80的128个。
![]() |
| GT200并行运算架构 |
上图是GT200核心在进行并行运算时的架构形态,处于架构最顶部的是采用硬件设计的线程管理器,用于自动调度成千上万个线程,保持Streaming Processor始终被充分利用。用于3D图形的纹理高速缓存(Tex L2)在这里用来连接TPC与内存(指显卡内存),降低响应时间并提升运算效率。最底部则是8路64bit内存控制器,组成GT200 512bit的内存(显存)位宽。
在运算形态下,NVIDIA将Streaming Processor称之为Thread Processor(线程处理器),仍然是标量设计,1MAD+2SFU。每个SM的Streaming Processor所共享的缓存为16k,这保证了同一个SM中每个核心能够同其它核心共享数据,而不必通过外部内存,对提升计算速度和增加算法的多样性贡献巨大。