| |
Dienstag, 1. Dezember 2009Konfidenzintervall
Das Konfidenzintervall beantwortet die Frage, in welchem Intervall ein Schätzwert mit welcher Wahrscheinlichkeit liegt.
Dazu wird eine Sicherheitswahrscheinlichkeit (abgekürzt mit einem großen S) angegeben, die der Wahrscheinlichkeit, mit der sich der Wert in dem entsprechenden Intervall befindet, entspricht. Die Wahrscheinlichkeit liegt zwischen Null und Eins (oder 0% und 100%, was ja dasselbe ist, entsprechend dem Prozentwert mit Excel). Dagegen steht die Irrtumswahrscheinlichkeit (meist mit alpha bezeichnet), also die Wahrscheinlichkeit, mit der sich der Wert außerhalb des entsprechenden Intervall befindet. Das ist ganz einfach das Gegenteil, die Irrtumswahrscheinlichkeit und die Sicherheitswahrscheinlichkeit müssen zusammen 100% oder eben Eins ergeben. Oder anders gesagt: alpha=1-S. Betrachtet man nun die gaußsche Glockenkurve der Normalverteilung, dann ist die Summe der Anzahl aller Messungen innerhalb des Konfidenzintervalls durch das Integral (die Fläche unter der Kurve) bestimmbar. Hier werden immer noch Tabellen verwendet um den so genannten Z-Wert abzulesen. Tabellen wurden noch weit nach dem Krieg für Trigonometrie und Logarithmen verwendet, aber den Z-Wert können die meisten Taschenrechner nicht. Im StatistkLE des TI Voyage 200 geht das natürlich: F5-WktV-Quantile-NormVert und da die Sicherheitswahrscheinlichtkeit als Dezimalzahl eingeben. Mü (µ) dabei auf Null und Sigma auf Eins setzen (man kann hier auch für andere Mittelwerte und Standardabweichungen rechnen lassen. Hier sonst ein paar übliche Werte, die man immer wieder braucht: 80%:Z=1,28, 90%:Z=1,64, 95%:Z=1,96, 98%:Z=2,33, 99%:Z=2,58 - man könnte hier mehr Nachkommastellen angeben, aber das ist eh alles keine genaue Mathematik sondern wir haben hier nur mit Schätzwerten zu tun. Wichtig ist nur zu wissen, dass der Wert der Irrtumswahrscheinlichkeit alpha sich links und rechts verteilt! Man nimmt also die Hälfte von alpha und zieht sie von Eins ab, bevor man den Z-Wert abliest. Mit dem Z-Wert, der sogenannten Standardisierung der Wahrscheinlichkeit kann man dann gemäß der Formelsammlung Statistik eine Intervallschätzung des arithmetischen Mittels oder der Standardabweichung vornehmen und dann ein Konfidenzintervall angeben. Komfortabler gehts mit dem StatistikLE des TI Voyage 200: F7-KonfI-ZInt-Mittelwert fragt nach der bekannten Standardabweichung für die normalverteilte Grundgesamtheit als Liste mit der Stichprobe mit optionaler Liste mit den Häufigkeitswerten für die Daten in der Liste. Außerdem natürlich nach dem Konfidenzniveau wie z.B. 0,95. Dienstag, 10. November 2009Kontingenztabelle
Der Kontingenzkoeffizient wird zur Messung der Stärke des Zusammenhanges zweier nominal skalierter Merkmale verwendet. Dazu werden die Daten in einer Kreuztabelle, der sogenannten Kontingenztabelle, aufgelistet. Danach werden die Werte mit erwarteten Häufigkeiten verglichen. Die erwarteten Häufigkeiten lassen sich aus dem Produkt von Zeilensumme und Spaltensumme geteilt durch die Größe der Stichprobe bestimmen.
Aus der tatsächlichen und den erwarteten Häufigkeiten kann dann entsprechend der Formelsammlung der Chi2-Wert berechnet werden. Komfortablerweise ist im StatistikLE des TI Voyage 200 mit F6-Tests-Chi2-KontingTabelle eine Funktion verfügbar, die aus einer Matrix der Beobachtungen die erwarteten Häufigkeiten sowie Chi2-Wert, P-Wert und Freiheitsgrad bestimmt. Der Chi2-Wert (Chi-Square oder Chi²) genannt taucht immer nur als Quadrat auf. Man kann damit über die Größe der Stichprobe und die Dimension der Tabelle den korrigierten Kontingenzkoeffizient ausrechnen um einen Zusammenhang zwischen den Daten festzustellen. Für den Chi2-Test muss dann noch der kritische Chi2-Wert entweder aus einer Tabelle gesucht oder berechnet werden. Auf dem TI Voyage 200 kann dazu unter F5-Quantile-Chi2Wert für eine bestimmte Wahrscheinlichkeit der Freiheitsgrad eingegeben werden. Dienstag, 3. November 2009Rangkorrelationskoeffizient
Für die Messung der Stärke und der Richtung des Zusammenhanges zweier ordinal skalierter Merkmale kann man den normalen Korrelationskoeffizienten nicht bestimmen. Hier wird auf den Rangkorrelationskoeffizient nach Spearman für ordinal skalierte Daten zurückgegriffen.
Der Rangkorrelationskoeffizient wird berechnet, indem die Werte durch Rangzahlen ersetzt werden. Also werden die Werte geordnet, das ist für ordinale Daten ja kein Problem. Der beste oder kleinste Wert bekommt dann die Eins, auf Platz zwei dann der nächste. So hat man Zahlen mit denen auch rechnen kann und es werden nur noch die Rangzahlen berücksichtigt. Dazu wird die Darstellung meist umgekehrt! Die Merkmalsträger stehen dann vorne und die beiden Rangzahlen als Ergebnis dahinter. Wie man das berechnet steht der in der Formelsammlung Statistik, aber um es kurz zu machen werden die Quadrate der Differenzen zwischen den beiden Rangzahlen der einzelnen Einheit summiert. Um auf einen Wert zwischen Null und Eins zu kommen wird dann mit sechs multipliziert und durch n³-n geteilt. Von Eins abgezogen ergibt sich dann R. Dabei steht wieder minus Eins für einen vollständiger negativen Zusammenhang und Eins für einen vollständig positiven Zusammenhang. Nur Werte um die Null bedeuten vollständige Unabhängigkeit der beiden Variablen, also alles wie beim normalen Korrelationskoeffizienten der metrischen Daten. Dienstag, 3. November 2009Lineare Regression
Bei der bivariate Verteilung betrachtet man zweidimensionale Daten, also Beziehungen zwischen mehreren Variablen und deren vermutete Zusammenhänge. Dabei werden aber noch keine wahrscheinlichkeitstheoretischen Überlegungen angestellt. Allerdings sollte man natürlich zuerst prüfen, ob überhaupt sachlich ein Zusammenhang angenommen werden kann uns sich weitere Untersuchung sparen wenn dem nicht so ist.
Dazu erstellt man zunächst einmal ein Streuungsdiagramm um einen Überblick zu bekommen, ob überhaupt ein Zusammenhang möglich ist oder nicht. Das Streuungsdiagramm ist ein normales Koordinatensystem und die Ausprägungen des einen Merkmals X-Achse und die Ausprägungen des anderen Merkmals auf der Y-Achse aufgetragen. Damit kann man schon grob die Art des Zusammenhangs erkennen. Wenn es einen Zusammenhang gibt kann man dies auch mathematisch mit der Berechnung von Korrelationskoeffizienten beweisen. Die Korrelation ermittelt allgemein den Grad der Stärke der Abhängigkeit des Zusammenhangs zwischen den beiden Merkmalen. Dabei wird für metrisch skalierte Daten der Korrelationskoeffizient nach Bravais-Pearson bestimmt. Darunter versteht man den Quotient aus der Kovarianz und dem Produkt der Standardabweichungen. Der Korrelationskoeffizient ist also eine maßstabsunabhängige Maßzahl, die von minus eins bei vollständigem negativen Zusammenhang (steigende Werte des einen Merkmals treffen mit sinkenden Werten des anderen Merkmals zusammen) bis zu eins bei einem vollständig positiven Zusammenhang (steigende Werte des einen Merkmals treffen mit steigenden Werten des anderen Merkmals zusammen) gehen kann. Nur Werte um die Null stehen für vollständige Unabhängigkeit der beiden Merkmale. Kann man denn nun bei metrisch skalierten Daten einen Zusammenhang aufgrund des Korrelationskoeffizient vermuten kann man eine Regression durchführen. Dabei handelt es sich bei linearen Zusammenhängen, die also wie einen Gerade aussehen um die einfache lineare Regression. Damit macht man einen tendenziellen Zusammenhang zwischen einer abhängigen Variablen und den Werten mindestens einer unabhängigen Variablen quantitativ. Man erhält Werte a und b für eine Geradengleichung im Format y=a+bx mit denen sich weitere Werte für den Zusammenhang berechnen lassen. Dazu werden über die Methode der kleinsten Quadrate die Residuen, also der Abstand aller Messwerte von der Geraden minimiert. Außerdem kann man für die Gerade auch ein Bestimmtheitsmaß berechnen, dabei handelt es sich um den durch die Regression von y nach x bestimmten Varianzanteil. Im schlimmsten Fall ist das Bestimmtheitsmaß gleich Null, das würde das Maximum an Reststreuung bedeuten und x hätte keinen linearen Einfluss auf y. Das wird aber kaum der Fall sein, weil und das beim Korrelationskoeffizienten schon aufgefallen wäre. Im besten Fall ist das Bestimmtheitsmaß gleich Eins und alle Punkte liegen genau auf der Geraden, die Residuen sind also alle Null. Die Formeln für Korrelationskoeffizient, Lineare Regression und Korrelationskoeffizient finden sich in der Formelsammlung Statistik. Mit dem StatistikLE auf dem TI Voyage 200 kann man mit F4-Rechnung-Regression-LinRegr(a+bx) und zwei Listen für X und Y als Argument die Funktionsgleichung zur weiteren Verwendung ermitteln und abspeichern. So lassen sich einfach weitere Werte durchrechnen. Die Werte für A und B werden angegeben, außerdem wird der Korrelationskoeffizient als r, das Bestimmtheitsmaß als r² und eine Liste der Residuen berechnet. |
SucheLayer |
Administration • Impressum • IT-Projekte • Geocaching • viertelzackvorschnirk

