Lokale Regression oder Lokale polynomiale Regression [1]auch bekannt als Moving Regression [2] ist eine Verallgemeinerung des gleitenden Durchschnitts und des Polynoms Regression. [3] Die gebräuchlichsten Methoden, die ursprünglich zur Streudiagramm-Glättung entwickelt wurden, sind LOESS (19459008) lokal geschätzte Streudiagramm-Glättung ) und LOWESS Streudiagramm-Glättung ), beide ausgeprägt . Hierbei handelt es sich um zwei stark verwandte nichtparametrische Regressionsmethoden, die mehrere Regressionsmodelle in einem k -Nähst-Nachbar-basierten Metamodell kombinieren.
LOESS und LOWESS bauen daher auf "klassischen" Methoden auf, wie der Regression der linearen und nichtlinearen kleinsten Quadrate. Sie befassen sich mit Situationen, in denen die klassischen Verfahren nicht gut funktionieren oder ohne übermäßige Arbeit nicht effektiv angewendet werden können. LOESS kombiniert einen Großteil der Einfachheit der linearen Regression der kleinsten Quadrate mit der Flexibilität der nichtlinearen Regression. Dies geschieht durch Anpassen einfacher Modelle an lokalisierte Teilmengen der Daten, um eine Funktion aufzubauen, die den deterministischen Teil der Variation in den Daten Punkt für Punkt beschreibt. Tatsächlich besteht eine der Hauptattraktionen dieser Methode darin, dass der Datenanalyst keine globale Funktion irgendeiner Form angeben muss, um ein Modell an die Daten anzupassen, sondern lediglich an Segmente der Daten.
Der Kompromiss für diese Merkmale ist eine erhöhte Berechnung. Da es so rechenintensiv ist, wäre es in der Zeit, in der die Regression der kleinsten Quadrate entwickelt wurde, praktisch unmöglich, LOESS zu verwenden. Die meisten anderen modernen Methoden zur Prozessmodellierung ähneln in dieser Hinsicht LOESS. Diese Methoden wurden bewusst so konzipiert, dass unsere derzeitige Rechenfähigkeit so weit wie möglich genutzt wird, um Ziele zu erreichen, die mit traditionellen Ansätzen nicht leicht zu erreichen sind.
Eine glatte Kurve durch einen Satz von Datenpunkten, die mit dieser statistischen Technik erhalten wurde, wird als Loess-Kurve bezeichnet, insbesondere wenn jeder geglättete Wert durch eine gewichtete quadratische Regression der kleinsten Quadrate über den Wertebereich von gegeben wird y-Achsen-Scattergramm-Kriterium. Wenn jeder geglättete Wert durch eine gewichtete lineare Regression der kleinsten Quadrate über die Spanne gegeben wird, wird dies als Lowess-Kurve bezeichnet. Einige Behörden behandeln jedoch Lowess und Loess als Synonyme.
Modelldefinition [ edit ]
LOESS, ursprünglich von Cleveland (1979) vorgeschlagen und von Cleveland und Devlin (1988) weiterentwickelt, bezeichnet spezifisch eine Methode, die auch als lokal bekannt ist gewichtete polynomiale Regression. An jedem Punkt im Bereich des Datensatzes wird ein niedriggradiges Polynom an eine Teilmenge der Daten angepasst, wobei erklärende Variablenwerte in der Nähe des Punkts liegen, dessen Antwort geschätzt wird. Das Polynom wird unter Verwendung gewichteter kleinster Quadrate angepasst, wodurch Punkte in der Nähe des Punkts, dessen Antwort geschätzt wird, stärker gewichtet werden und Punkte, die weiter entfernt sind, weniger Gewicht erhalten. Der Wert der Regressionsfunktion für den Punkt wird dann erhalten, indem das lokale Polynom unter Verwendung der Werte der erklärenden Variablen für diesen Datenpunkt ausgewertet wird. Der LOESS-Fit ist abgeschlossen, nachdem die Regressionsfunktionswerte für jeden der
Lokalisierte Datensätze [ edit ]
Die -Untersätze der Daten, die für jedes gewichtete kleinste Quadrat in LOESS verwendet werden, werden durch einen nächstgelegenen Nachbaralgorithmus bestimmt. Eine vom Benutzer angegebene Eingabe für die Prozedur, die als "Bandbreite" oder "Glättungsparameter" bezeichnet wird, bestimmt, wie viel Daten für jedes lokale Polynom verwendet werden. Der Glättungsparameter ist der Bruchteil der Gesamtzahl n von Datenpunkten, die in jeder lokalen Anpassung verwendet werden . Die Teilmenge der Daten, die in jedem gewichteten Least-Squares-Fit verwendet werden, umfasst somit die Punkte "/> die auf die nächsten gerundet werden größte ganze Zahl), deren Werte der erklärenden Variablen dem Punkt am nächsten liegen, an dem die Antwort geschätzt wird. [4]
Da ein Polynom von Grad k erfordert kleinste ( k +1) Punkte für eine Passung, der Glättungsparameter muss zwischen und 1, wobei den Grad des lokalen Polynoms angibt.
wird als Glättungsparameter bezeichnet, da er die Flexibilität der LOESS-Regressionsfunktion steuert. Große Werte von erzeugen die weichsten Funktionen, die als Reaktion auf Schwankungen in den Daten am wenigsten wackeln. Je kleiner ist, desto näher kommt die Regressionsfunktion an die Daten heran. Die Verwendung eines zu kleinen Wertes des Glättungsparameters ist jedoch nicht wünschenswert, da die Regressionsfunktion schließlich den Zufallsfehler in den Daten erfasst.
Grad lokaler Polynome [ edit ]
Die lokalen Polynome, die zu jeder Teilmenge der Daten passen, sind fast immer erster oder zweiter Grad; das heißt entweder lokal linear (geradlinig) oder lokal quadratisch. Die Verwendung eines Polynoms von null Grad macht aus LOESS einen gewichteten gleitenden Durchschnitt. Polynome mit höherem Grad würden theoretisch funktionieren, liefern aber Modelle, die nicht wirklich im Sinne von LOESS sind. LOESS basiert auf der Idee, dass jede Funktion in einer kleinen Umgebung durch ein Polynom niedriger Ordnung gut angenähert werden kann und dass einfache Modelle leicht an Daten angepasst werden können. Hochgradige Polynome neigen dazu, die Daten in jeder Teilmenge zu überfüllen und sind numerisch instabil, was genaue Berechnungen schwierig macht.
Gewichtungsfunktion [ edit ]
Wie oben erwähnt, gibt die Gewichtungsfunktion den Datenpunkten, die dem Schätzpunkt am nächsten liegen, das höchste Gewicht und den Datenpunkten das geringste Gewicht am weitesten weg. Die Verwendung der Gewichtungen basiert auf der Idee, dass nahe beieinander liegende Punkte im erklärenden Variablenraum eher auf einfache Weise miteinander in Beziehung stehen als Punkte, die weiter voneinander entfernt sind. Nach dieser Logik beeinflussen Punkte, die wahrscheinlich dem lokalen Modell folgen, die lokalen Modellparameter am besten. Punkte, die weniger wahrscheinlich dem lokalen Modell entsprechen, haben einen geringeren Einfluss auf die Schätzungen der Parameter des lokalen Modells.
Die traditionelle Gewichtsfunktion für LOESS ist die Tri-Cube-Gewichtsfunktion.
wobei d der Abstand eines bestimmten Datenpunkts vom eingebauten Punkt der Kurve ist, skaliert, um zu liegen im Bereich von 0 bis 1. [4]
Es kann jedoch auch jede andere Gewichtsfunktion verwendet werden, die die in Cleveland (1979) aufgeführten Eigenschaften erfüllt. Die Gewichtung für einen bestimmten Punkt in irgendeiner lokalisierten Teilmenge von Daten wird erhalten, indem die Gewichtungsfunktion in der Entfernung zwischen diesem Punkt und dem Schätzpunkt bewertet wird, nachdem die Entfernung so skaliert wurde, dass die maximale absolute Entfernung über alle Punkte in der Teilmenge von Daten sind genau eins.
Betrachten wir die folgende Verallgemeinerung des linearen Regressionsmodells mit einer Metrik auf dem Zielraum das von zwei Parametern abhängt, . Angenommen, die lineare Hypothese basiert auf Eingabeparametern, und dass, wie in diesen Fällen üblich, der Eingaberaum in als und die folgende Verlustfunktion
Hier ist ein reelle Matrix von Koeffizienten, und die su bscript i zählt Eingabe- und Ausgabevektoren aus einem Trainingssatz auf. Da w eine Metrik ist, handelt es sich um eine symmetrische, positiv definite Matrix, und somit gibt es eine andere symmetrische Matrix so dass . Die obige Verlustfunktion kann in eine Spur umgewandelt werden, indem beobachtet wird, dass . Durch Anordnen der Vektoren und in die Spalten eines Matrix und eine "/> ] n
wobei [19659318] W
- = 19659050] ] W
( x ) X ^ T . . {19] Displaystyle A {} {W} (X) { hat {X}} ^ {T} = YW (x) { hat {X}} ^ {T}.}
Unter der Annahme, dass die quadratische Matrix ist nicht singulär, die Verlustfunktion erreicht sein Minimum um
Eine typische Wahl für ist das [19689015] Gaussian Gewicht
Vorteile [19659010] [ edit ]
Wie oben erörtert, ist der größte Vorteil, den LOESS gegenüber vielen anderen Methoden hat, die Tatsache, dass es nicht die Angabe einer Funktion erfordert, um ein Modell an alle Daten anzupassen die Probe. Stattdessen muss der Analytiker lediglich einen Glättungsparameterwert und den Grad des lokalen Polynoms angeben. Darüber hinaus ist LOESS sehr flexibel und daher ideal für die Modellierung komplexer Prozesse, für die es keine theoretischen Modelle gibt. Diese beiden Vorteile in Kombination mit der Einfachheit der Methode machen LOESS zu einer der attraktivsten der modernen Regressionsmethoden für Anwendungen, die in den allgemeinen Rahmen der Regression der kleinsten Quadrate passen, jedoch eine komplexe deterministische Struktur aufweisen.
Obwohl es weniger offensichtlich ist als bei einigen anderen Methoden, die mit der Regression der linearen kleinsten Quadrate zusammenhängen, hat LOESS auch die meisten Vorteile, die diese Verfahren normalerweise teilen. Die wichtigste davon ist die Theorie zur Berechnung von Unsicherheiten für Vorhersage und Kalibrierung. Viele andere Tests und Verfahren, die zur Validierung von Modellen der kleinsten Quadrate verwendet werden, können auch auf die Modelle LOESS [ und Zitat erweitert werden.
Nachteile [ edit ]
LOESS verwendet Daten weniger effizient als andere Methoden der Methode der kleinsten Quadrate. Um gute Modelle zu erstellen, sind relativ große, dicht abgetastete Datensätze erforderlich. Dies liegt daran, dass LOESS bei der lokalen Anpassung auf die lokale Datenstruktur angewiesen ist. Daher bietet LOESS weniger komplexe Datenanalysen als Gegenleistung für höhere experimentelle Kosten.
Ein weiterer Nachteil von LOESS ist die Tatsache, dass keine Regressionsfunktion erzeugt wird, die leicht durch eine mathematische Formel dargestellt wird. Dies kann es schwierig machen, die Ergebnisse einer Analyse auf andere Personen zu übertragen. Um die Regressionsfunktion auf eine andere Person zu übertragen, benötigen sie den Datensatz und die Software für die Berechnung von Loss. Bei der nichtlinearen Regression ist es dagegen nur erforderlich, eine funktionale Form aufzuschreiben, um Schätzungen der unbekannten Parameter und der geschätzten Unsicherheit zu erhalten. Abhängig von der Anwendung kann dies bei der Verwendung von LOESS entweder einen großen oder einen geringen Nachteil darstellen. Insbesondere kann die einfache Form von LOESS nicht für die mechanistische Modellierung verwendet werden, wenn angepasste Parameter bestimmte physikalische Eigenschaften eines Systems angeben.
Schließlich ist LOESS, wie oben diskutiert, eine rechenintensive Methode (mit Ausnahme von Daten mit gleichem Abstand, bei denen die Regression dann als nichtkausaler Finite Impulse Response -Filter formuliert werden kann). Wie andere Methoden der Methode der kleinsten Quadrate ist auch LOESS anfällig für die Auswirkungen von Ausreißern im Datensatz. Es gibt eine iterative, robuste -Version von LOESS [Cleveland (1979)]die verwendet werden kann, um die Empfindlichkeit von LOESS gegenüber Ausreißern zu reduzieren, aber zu viele extreme Ausreißer können sogar die robuste Methode überwinden.
Siehe auch [ edit
Referenzen [ edit
Externe Links edit
Implementierungen [ edit ]
Dieser Artikel enthält Public Domain-Material von der Website . https://www.nist.gov .
Không có nhận xét nào:
Đăng nhận xét