cuda 性能优化

 
1、minimize the tail effect
一个kernel使用更少的寄存器,在一个流处理器上能够分配更多的线程和线程块,能能够提高性能。通过__launch_bounds__设定让编译器优化寄存器的使用。

__global__ void
__launch_bounds__(maxThreadsPerBlock, minBlocksPerMultiprocessor)
MyKernel(...) {
 ...
}

 

Leave a Reply

Your email address will not be published. Required fields are marked *