Warum stochastischer Gradientenabstieg?

Inhaltsverzeichnis:

Warum stochastischer Gradientenabstieg?
Warum stochastischer Gradientenabstieg?

Video: Warum stochastischer Gradientenabstieg?

Video: Warum stochastischer Gradientenabstieg?
Video: Gradient Descent (Gradientenverfahren) im Detail erklärt | Künstliche Intelligenz 2024, Dezember
Anonim

Laut einem leitenden Datenwissenschaftler besteht einer der entscheidenden Vorteile der Verwendung des stochastischen Gradientenabstiegs darin, dass die Berechnungen schneller durchgeführt werden als der Gradientenabstieg und der Batch-Gradientenabstieg … Also, on Bei großen Datensätzen kann der stochastische Gradientenabstieg schneller konvergieren, da Aktualisierungen häufiger durchgeführt werden.

Wofür wird der stochastische Gradientenabstieg verwendet?

Stochastic Gradient Descent ist ein Optimierungsalgorithmus, der häufig in maschinellen Lernanwendungen verwendet wird, um die Modellparameter zu finden, die der besten Übereinstimmung zwischen vorhergesagten und tatsächlichen Ergebnissen entsprechen Es ist eine ungenaue, aber leistungsstarke Technik. Der stochastische Gradientenabstieg wird häufig in maschinellen Lernanwendungen verwendet.

Warum müssen wir den stochastischen Gradientenabstieg anstelle des Standard-Gradientenabstiegs verwenden, um ein konvolutionelles neuronales Netzwerk zu trainieren?

Stochastischer Gradientenabstieg aktualisiert die Parameter für jede Beobachtung, was zu mehr Aktualisierungen führt. Es handelt sich also um einen schnelleren Ansatz, der zu einer schnelleren Entscheidungsfindung beiträgt. In dieser Animation sind schnellere Aktualisierungen in verschiedene Richtungen zu erkennen.

Warum bevorzugen wir den Gradientenabstieg?

Der Hauptgrund, warum der Gradientenabstieg für die lineare Regression verwendet wird, ist die Rechenkomplexität: In einigen Fällen ist es rechnerisch billiger (schneller), die Lösung mit dem Gradientenabstieg zu finden. Hier müssen Sie die Matrix X′X berechnen und dann invertieren (siehe Hinweis unten). Es ist eine teure Berechnung.

Warum wird SGD verwendet?

Stochastic Gradient Descent (oft abgekürzt SGD) ist ein iteratives Verfahren zur Optimierung einer Zielfunktion mit geeigneten Glattheitseigenschaften (z. B. differenzierbar oder subdifferenzierbar).

Empfohlen: