| |
Dienstag, 3. November 2009Lineare Regression
Bei der bivariate Verteilung betrachtet man zweidimensionale Daten, also Beziehungen zwischen mehreren Variablen und deren vermutete Zusammenhänge. Dabei werden aber noch keine wahrscheinlichkeitstheoretischen Überlegungen angestellt. Allerdings sollte man natürlich zuerst prüfen, ob überhaupt sachlich ein Zusammenhang angenommen werden kann uns sich weitere Untersuchung sparen wenn dem nicht so ist.
Dazu erstellt man zunächst einmal ein Streuungsdiagramm um einen Überblick zu bekommen, ob überhaupt ein Zusammenhang möglich ist oder nicht. Das Streuungsdiagramm ist ein normales Koordinatensystem und die Ausprägungen des einen Merkmals X-Achse und die Ausprägungen des anderen Merkmals auf der Y-Achse aufgetragen. Damit kann man schon grob die Art des Zusammenhangs erkennen. Wenn es einen Zusammenhang gibt kann man dies auch mathematisch mit der Berechnung von Korrelationskoeffizienten beweisen. Die Korrelation ermittelt allgemein den Grad der Stärke der Abhängigkeit des Zusammenhangs zwischen den beiden Merkmalen. Dabei wird für metrisch skalierte Daten der Korrelationskoeffizient nach Bravais-Pearson bestimmt. Darunter versteht man den Quotient aus der Kovarianz und dem Produkt der Standardabweichungen. Der Korrelationskoeffizient ist also eine maßstabsunabhängige Maßzahl, die von minus eins bei vollständigem negativen Zusammenhang (steigende Werte des einen Merkmals treffen mit sinkenden Werten des anderen Merkmals zusammen) bis zu eins bei einem vollständig positiven Zusammenhang (steigende Werte des einen Merkmals treffen mit steigenden Werten des anderen Merkmals zusammen) gehen kann. Nur Werte um die Null stehen für vollständige Unabhängigkeit der beiden Merkmale. Kann man denn nun bei metrisch skalierten Daten einen Zusammenhang aufgrund des Korrelationskoeffizient vermuten kann man eine Regression durchführen. Dabei handelt es sich bei linearen Zusammenhängen, die also wie einen Gerade aussehen um die einfache lineare Regression. Damit macht man einen tendenziellen Zusammenhang zwischen einer abhängigen Variablen und den Werten mindestens einer unabhängigen Variablen quantitativ. Man erhält Werte a und b für eine Geradengleichung im Format y=a+bx mit denen sich weitere Werte für den Zusammenhang berechnen lassen. Dazu werden über die Methode der kleinsten Quadrate die Residuen, also der Abstand aller Messwerte von der Geraden minimiert. Außerdem kann man für die Gerade auch ein Bestimmtheitsmaß berechnen, dabei handelt es sich um den durch die Regression von y nach x bestimmten Varianzanteil. Im schlimmsten Fall ist das Bestimmtheitsmaß gleich Null, das würde das Maximum an Reststreuung bedeuten und x hätte keinen linearen Einfluss auf y. Das wird aber kaum der Fall sein, weil und das beim Korrelationskoeffizienten schon aufgefallen wäre. Im besten Fall ist das Bestimmtheitsmaß gleich Eins und alle Punkte liegen genau auf der Geraden, die Residuen sind also alle Null. Die Formeln für Korrelationskoeffizient, Lineare Regression und Korrelationskoeffizient finden sich in der Formelsammlung Statistik. Mit dem StatistikLE auf dem TI Voyage 200 kann man mit F4-Rechnung-Regression-LinRegr(a+bx) und zwei Listen für X und Y als Argument die Funktionsgleichung zur weiteren Verwendung ermitteln und abspeichern. So lassen sich einfach weitere Werte durchrechnen. Die Werte für A und B werden angegeben, außerdem wird der Korrelationskoeffizient als r, das Bestimmtheitsmaß als r² und eine Liste der Residuen berechnet. Trackbacks
Trackback-URL für diesen Eintrag
Keine Trackbacks
|
SucheLayer |
Administration • Impressum • IT-Projekte • Geocaching • viertelzackvorschnirk

