Thứ Ba, 28 tháng 1, 2020

Textual description of firstImageUrl

Lokale Regression - Wikipedia


Die LOESS-Kurve wurde an eine Population angepasst, die aus einer Sinuswelle mit zusätzlichem Rauschen aufgenommen wurde. Die LOESS-Kurve nähert sich der ursprünglichen Sinuswelle an

Lokale Regression oder Lokale polynomiale Regression [1]auch bekannt als Moving Regression [2] ist eine Verallgemeinerung des gleitenden Durchschnitts und des Polynoms Regression. [3] Die gebräuchlichsten Methoden, die ursprünglich zur Streudiagramm-Glättung entwickelt wurden, sind LOESS (19459008) lokal geschätzte Streudiagramm-Glättung ) und LOWESS Streudiagramm-Glättung ), beide ausgeprägt . Hierbei handelt es sich um zwei stark verwandte nichtparametrische Regressionsmethoden, die mehrere Regressionsmodelle in einem k -Nähst-Nachbar-basierten Metamodell kombinieren.

LOESS und LOWESS bauen daher auf "klassischen" Methoden auf, wie der Regression der linearen und nichtlinearen kleinsten Quadrate. Sie befassen sich mit Situationen, in denen die klassischen Verfahren nicht gut funktionieren oder ohne übermäßige Arbeit nicht effektiv angewendet werden können. LOESS kombiniert einen Großteil der Einfachheit der linearen Regression der kleinsten Quadrate mit der Flexibilität der nichtlinearen Regression. Dies geschieht durch Anpassen einfacher Modelle an lokalisierte Teilmengen der Daten, um eine Funktion aufzubauen, die den deterministischen Teil der Variation in den Daten Punkt für Punkt beschreibt. Tatsächlich besteht eine der Hauptattraktionen dieser Methode darin, dass der Datenanalyst keine globale Funktion irgendeiner Form angeben muss, um ein Modell an die Daten anzupassen, sondern lediglich an Segmente der Daten.

Der Kompromiss für diese Merkmale ist eine erhöhte Berechnung. Da es so rechenintensiv ist, wäre es in der Zeit, in der die Regression der kleinsten Quadrate entwickelt wurde, praktisch unmöglich, LOESS zu verwenden. Die meisten anderen modernen Methoden zur Prozessmodellierung ähneln in dieser Hinsicht LOESS. Diese Methoden wurden bewusst so konzipiert, dass unsere derzeitige Rechenfähigkeit so weit wie möglich genutzt wird, um Ziele zu erreichen, die mit traditionellen Ansätzen nicht leicht zu erreichen sind.

Eine glatte Kurve durch einen Satz von Datenpunkten, die mit dieser statistischen Technik erhalten wurde, wird als Loess-Kurve bezeichnet, insbesondere wenn jeder geglättete Wert durch eine gewichtete quadratische Regression der kleinsten Quadrate über den Wertebereich von gegeben wird y-Achsen-Scattergramm-Kriterium. Wenn jeder geglättete Wert durch eine gewichtete lineare Regression der kleinsten Quadrate über die Spanne gegeben wird, wird dies als Lowess-Kurve bezeichnet. Einige Behörden behandeln jedoch Lowess und Loess als Synonyme.

Modelldefinition [ edit ]

LOESS, ursprünglich von Cleveland (1979) vorgeschlagen und von Cleveland und Devlin (1988) weiterentwickelt, bezeichnet spezifisch eine Methode, die auch als lokal bekannt ist gewichtete polynomiale Regression. An jedem Punkt im Bereich des Datensatzes wird ein niedriggradiges Polynom an eine Teilmenge der Daten angepasst, wobei erklärende Variablenwerte in der Nähe des Punkts liegen, dessen Antwort geschätzt wird. Das Polynom wird unter Verwendung gewichteter kleinster Quadrate angepasst, wodurch Punkte in der Nähe des Punkts, dessen Antwort geschätzt wird, stärker gewichtet werden und Punkte, die weiter entfernt sind, weniger Gewicht erhalten. Der Wert der Regressionsfunktion für den Punkt wird dann erhalten, indem das lokale Polynom unter Verwendung der Werte der erklärenden Variablen für diesen Datenpunkt ausgewertet wird. Der LOESS-Fit ist abgeschlossen, nachdem die Regressionsfunktionswerte für jeden der n { displaystyle n} Datenpunkte berechnet wurden. Viele Details dieser Methode, wie der Grad des Polynommodells und die Gewichte, sind flexibel. Als Nächstes werden die Auswahlmöglichkeiten für jeden Teil der Methode und typische Standardwerte kurz erläutert.

Lokalisierte Datensätze [ edit ]

Die -Untersätze der Daten, die für jedes gewichtete kleinste Quadrat in LOESS verwendet werden, werden durch einen nächstgelegenen Nachbaralgorithmus bestimmt. Eine vom Benutzer angegebene Eingabe für die Prozedur, die als "Bandbreite" oder "Glättungsparameter" bezeichnet wird, bestimmt, wie viel Daten für jedes lokale Polynom verwendet werden. Der Glättungsparameter ist der Bruchteil der Gesamtzahl n von Datenpunkten, die in jeder lokalen Anpassung verwendet werden . Die Teilmenge der Daten, die in jedem gewichteten Least-Squares-Fit verwendet werden, umfasst somit die Punkte "/> die auf die nächsten gerundet werden größte ganze Zahl), deren Werte der erklärenden Variablen dem Punkt am nächsten liegen, an dem die Antwort geschätzt wird. [4]

Da ein Polynom von Grad k erfordert kleinste ( k +1) Punkte für eine Passung, der Glättungsparameter muss zwischen und 1, wobei den Grad des lokalen Polynoms angibt.

wird als Glättungsparameter bezeichnet, da er die Flexibilität der LOESS-Regressionsfunktion steuert. Große Werte von erzeugen die weichsten Funktionen, die als Reaktion auf Schwankungen in den Daten am wenigsten wackeln. Je kleiner ist, desto näher kommt die Regressionsfunktion an die Daten heran. Die Verwendung eines zu kleinen Wertes des Glättungsparameters ist jedoch nicht wünschenswert, da die Regressionsfunktion schließlich den Zufallsfehler in den Daten erfasst.

Grad lokaler Polynome [ edit ]

Die lokalen Polynome, die zu jeder Teilmenge der Daten passen, sind fast immer erster oder zweiter Grad; das heißt entweder lokal linear (geradlinig) oder lokal quadratisch. Die Verwendung eines Polynoms von null Grad macht aus LOESS einen gewichteten gleitenden Durchschnitt. Polynome mit höherem Grad würden theoretisch funktionieren, liefern aber Modelle, die nicht wirklich im Sinne von LOESS sind. LOESS basiert auf der Idee, dass jede Funktion in einer kleinen Umgebung durch ein Polynom niedriger Ordnung gut angenähert werden kann und dass einfache Modelle leicht an Daten angepasst werden können. Hochgradige Polynome neigen dazu, die Daten in jeder Teilmenge zu überfüllen und sind numerisch instabil, was genaue Berechnungen schwierig macht.

Gewichtungsfunktion [ edit ]

Wie oben erwähnt, gibt die Gewichtungsfunktion den Datenpunkten, die dem Schätzpunkt am nächsten liegen, das höchste Gewicht und den Datenpunkten das geringste Gewicht am weitesten weg. Die Verwendung der Gewichtungen basiert auf der Idee, dass nahe beieinander liegende Punkte im erklärenden Variablenraum eher auf einfache Weise miteinander in Beziehung stehen als Punkte, die weiter voneinander entfernt sind. Nach dieser Logik beeinflussen Punkte, die wahrscheinlich dem lokalen Modell folgen, die lokalen Modellparameter am besten. Punkte, die weniger wahrscheinlich dem lokalen Modell entsprechen, haben einen geringeren Einfluss auf die Schätzungen der Parameter des lokalen Modells.

Die traditionelle Gewichtsfunktion für LOESS ist die Tri-Cube-Gewichtsfunktion.