Diese Frage zur Verwendung von CUDA-Streams verwandt reduzieren viele Kerne In CUDA gibt es viele Synchronisationsbefehle cudaStreamSynchronize, CudaDeviceSynchronize, cudaThreadSynchronize, und auch
Für meine CUDA-Entwicklung verwende ich eine Maschine mit 16 Kernen und 1 GTX 580 GPU mit 16 SMs. Für die Arbeit, die ich mache, plane ich 16 Host-Threads (1 auf jedem Kern) und 1 Kernel-Start pro Thr