SSE4流加载部分虽然只有一条指令,不过其确实具有相当重要的地位。在现有的平台当中,CPU使用Write Combining技术可以实现很高带宽的写入操作,可以通过MMIO的方式将图形数据很快地写入到Write Combining缓存并迅速写入内存当中,然而读取却是非常的缓慢,因为Write Combining缓存的读取是缓慢的(没有Read Combining)……读取带宽被限制为800MB/s。
![]() |
Streaming Load技术就是为了解决这个问题,它提供了一个16位对齐的加载指令,可以快速地对Write Combining内存进行操作,可以以高达8GB/s的速率加载数据至CPU(SSE4架构新增加了一个内部临时缓存来存放这些数据),从而大大提升了GPU-CPU之间的数据带宽,在现在GPU越来越强大、数据流量越来越大的情形下,这是非常必要的。
最后,虽然这个Streaming Load是以视频加速为例子,实际上它的工作方式对其他外设也是有用的,这是一个通用性的提高WC内存读取速度的技术。
| 第1页:45nm Penryn上的指令集革命 | 第2页:SSE2以来最大的指令集变动 |
| 第3页:提升可达200%~300%的SSE4视频编.. | 第4页:图形操作基础指令的全面向量化 |
| 第5页:GPU-CPU的高速桥梁 | 第6页:SSE4前景看好 |