Warum brauchen wir cudaDeviceSynchronize(); in Kernen mit Device-Printf?

__global__ void helloCUDA(float f) 
{ 
    printf("Hello thread %d, f=%f\n", threadIdx.x, f); 
} 

int main() 
{ 
    helloCUDA<<<1, 5>>>(1.2345f); 
    cudaDeviceSynchronize(); 
    return 0; 
}

Warum ist cudaDeviceSynchronize(); an vielen Orten zum Beispiel here ist es nach Kernel-Aufruf nicht erforderlich?Warum brauchen wir cudaDeviceSynchronize(); in Kernen mit Device-Printf?

Quelle

2013-10-05 gpuguy

Ein Kernelstart ist asynchron. Das bedeutet, dass die Steuerung unmittelbar nach dem Start des GPU-Prozesses an den CPU-Thread zurückgegeben wird, bevor der Kernel die Ausführung beendet hat.

Was ist nun das nächste im CPU-Thread? Anwendung beenden

Beim Beenden der Anwendung wird die Fähigkeit, die Ausgabe an die Standardausgabe zu senden, vom Betriebssystem beendet.

So die Ausgabe, die später vom Kernel generiert wird, nirgends zu gehen, und Sie werden es nicht sehen.

Auf der anderen Seite, wenn Sie cudaDeviceSynchronize() verwenden, dann wird die Kernel zu beenden zu beenden (und die Ausgabe von dem Kernel findet eine Wartestandardausgabewarteschlange) garantiert wird vor die Anwendung erlaubt.

Quelle

2013-10-05 03:06:27

aber wenn Sie den Link sehen, den ich gepostet habe, rufen wir sofort nach Kernal Call cudamemcpy (.... Gerät zu Host). Warum haben wir hier keine cushadevicesynchronize()? – gpuguy

Da CUDA-Operationen (API-Aufrufe, Kernel-Aufrufe), die für denselben Stream ausgegeben werden, selbst wenn sie asynchron sind, werden sie garantiert seriell ausgeführt. Da sich der Kernel und die cudaMecpy-Operation im selben (Standard) -Stream befinden, wird der cudaMemcpy garantiert nicht so lange gestartet, bis der Kernel abgeschlossen ist, obwohl der Kernel-Start asynchron ist (in Bezug auf den Host-Thread). –

Warum brauchen wir cudaDeviceSynchronize(); in Kernen mit Device-Printf?

Antwort

Verwandte Themen