Ich verstehe die Rolle des Bias-Knotens in neuronalen Netzen, und warum es wichtig ist, die Aktivierungsfunktion in kleinen Netzwerken zu verschieben. Meine Frage ist: Ist die Verzerrung in sehr großen Netzwerken (genauer gesagt in einem konvolutionellen neuronalen Netzwerk zur Bilderkennung mit der ReLu-Aktivierungsfunktion, 3 Faltungsschichten, 2 versteckten Schichten und über 100.000 Verbindungen) noch wichtig, oder wird ihre Wirkung erhalten? durch die schiere Anzahl der Aktivierungen verloren?Ist der Bias-Knoten in sehr großen neuronalen Netzen notwendig?
Der Grund, warum ich frage, ist, weil ich in der Vergangenheit Netzwerke aufgebaut habe, in denen ich vergessen habe, einen Bias-Knoten zu implementieren, jedoch beim Hinzufügen einen vernachlässigbaren Unterschied in der Leistung gesehen. Könnte dies auf den Zufall zurückzuführen sein, dass der spezifizierte Datensatz keine Verzerrung erforderte? Muss ich die Verzerrung in großen Netzwerken mit einem größeren Wert initialisieren? Jeder andere Rat würde sehr geschätzt werden.
Ah, stellt sich heraus, dass die Verzerrung ist klein, also ich denke, der Datensatz muss bereits einigermaßen zentriert sein. Prost für die Antwort. – Hungry