Warum löst LSTM verschwindende Gradienten?

Warum löst LSTM verschwindende Gradienten?
Warum löst LSTM verschwindende Gradienten?
Anonim

LSTMs lösen das Problem mit einer einzigartigen additiven Gradientenstruktur, die direkten Zugriff auf die Aktivierungen des Vergissgates beinh altet und es dem Netzwerk ermöglicht, das gewünschte Verh alten des Fehlergradienten durch häufige Gate-Aktualisierung zu fördern bei jedem Zeitschritt des Lernprozesses.

Wie löst LSTM explodierende Gradienten?

Eine sehr kurze Antwort: LSTM entkoppelt den Zellzustand (normalerweise mit c bezeichnet) und die verborgene Schicht/Ausgabe (normalerweise mit h bezeichnet) und führt nur additive Aktualisierungen an c durch, wodurch Speicher in c stabiler werden. Somit bleibt der Gradient, der durch c fließt, erh alten und ist schwer zu verschwinden (daher ist der Gesamtgradient schwer zu verschwinden).

Wie kann das Problem des verschwindenden Gradienten gelöst werden?

Lösungen: Die einfachste Lösung besteht darin, andere Aktivierungsfunktionen zu verwenden, wie z. B. ReLU, die keine kleine Ableitung verursachen. Restnetzwerke sind eine weitere Lösung, da sie Restverbindungen direkt zu früheren Schichten bereitstellen.

Welches Problem löst LSTM?

LSTMs. LSTM (kurz für langes Kurzzeitgedächtnis) löst in erster Linie das Problem des verschwindenden Gradienten bei der Backpropagation. LSTMs verwenden einen Gating-Mechanismus, der den Memoisierungsprozess steuert. Informationen in LSTMs können über sich öffnende und schließende Tore gespeichert, geschrieben oder gelesen werden.

Warum verhindern LSTMs, dass Ihre Steigungen aus der Sicht vom Rückwärtspass verschwinden?

Der Grund dafür ist, dass, um diesen konstanten Fehlerfluss zu erzwingen, die Gradientenberechnung abgeschnitten wurde, damit sie nicht zu den Eingabe- oder Kandidatengattern zurückfließt.

Empfohlen: