Gibt es eine bestimmte Funktion, um eine andere GPU als den ersten cudaMalloc-Aufruf zu initialisieren?

Der erste cudaMalloc-Aufruf ist langsam (wie 0,2 Sekunden) wegen einiger Initialisierungsarbeiten auf GPU. Gibt es irgendeine Funktion, die nur die Initialisierung durchführt, damit ich die Zeit trennen kann? cudaSetDevice scheint die Zeit auf 0,15 Sekunden zu reduzieren, beseitigt aber trotzdem nicht alle Init-Overheads.Gibt es eine bestimmte Funktion, um eine andere GPU als den ersten cudaMalloc-Aufruf zu initialisieren?

Quelle

2013-03-01 szli

Ein Aufruf

cudaFree(0);

ist der üblicher Weg, faul Kontext Einrichtung in der CUDA-Laufzeit zu erzwingen. Sie können den Overhead nicht reduzieren, das ist eine Funktion von Treiber-, Laufzeit- und Betriebssystemlatenzen. Mit dem obigen Aufruf können Sie steuern, wie und wann diese Gemeinkosten während der Programmausführung auftreten.

EDIT 2015 hinzufügen, dass die Heuristik des Kontext der Initialisierung in dem Runtime-API auf subtile Weise im Laufe der Zeit verändert hat, so dass cudaSetDevice jetzt einen Kontext stellt, so dass der cudaFree() Anruf nicht explizit einen Zusammenhang intialise erforderlich ist, können Sie Verwenden Sie stattdessen cudaSetDevice. Beachten Sie auch, dass beim ersten Start des Kernels noch einige Rüstzeiten anfallen, während dies vorher nicht der Fall war. Für das Kernel-Timing ist es am besten, zuerst einen Aufwärmaufruf einzubeziehen, bevor Sie den Kernel starten, um diese Setup-Latenz zu entfernen. Es scheint, dass die verschiedenen Profiling-Tools genügend Granularität eingebaut haben, um dies ohne zusätzliche API-Aufrufe oder Kernel-Aufrufe zu vermeiden.

Quelle

2013-03-01 21:03:58 talonmies

Genau! Es erfasst alle Initialisierungszeiten! Vielen Dank! – szli

Gibt es eine bestimmte Funktion, um eine andere GPU als den ersten cudaMalloc-Aufruf zu initialisieren?

Antwort

Verwandte Themen