PDF herunterladen PDF herunterladen

Die Varianz (oder Stichprobenvarianz) ist ein Maß für die Streuung von Daten. Eine niedrige Varianz bedeutet, dass die Werte in dem Datensatz eng beisammen liegen. Bei einer hohen Varianz liegen sie weiter verstreut. Dieses Konzept hat einen großen Nutzen in der Statistik. So kann man z.B. durch den Vergleich der Varianz zweier Datensätze (wie z.B. der Resultate von männlichen und weiblichen Patienten) herausfinden, ob eine Variable einen erkennbaren Effekt hat. [1] Die Varianz ist auch bei der Erstellung eines statistischen Modells sinnvoll, da eine niedrige Varianz ein Zeichen dafür sein kann, dass du zu viele erklärende Variablen verwendest (Overfitting/Überanpassung). [2]

Methode 1
Methode 1 von 2:

Die Varianz einer Stichprobe berechnen

PDF herunterladen
  1. In den meisten Fällen haben Statistiker nur Zugang zu einer Stichprobe oder einem Teilsatz der Grundgesamtmenge (auch Population), die sie studieren. Anstatt also z.B. die Kosten „aller in einem Jahr in Deutschland produzierter Autos“ zu analysieren, könnte der Statistiker stattdessen eine zufällige Stichprobe von ein paar tausend Autos verwenden. Mit dieser Stichprobe bekommt er eine gute Schätzung der durchschnittlichen Kosten für ein in Deutschland produziertes Auto. Diese Schätzung wird aber nicht genau den wahren Werten entsprechen.
    • Beispiel : Analysiere die Anzahl der pro Tag verkauften Muffins in der Cafeteria. Deine Stichprobe besteht aus den Werten von sechs zufälligen Tagen: 17, 15, 23, 7, 9, 13 . Das ist eine Stichprobe, keine Grundgesamtmenge, da du nicht jeden einzelnen Wert seit der Eröffnung der Cafeteria hast.
    • Wenn du jeden Datenwert einer Grundgesamtmenge kennst, springe stattdessen zu der weiter unten erläuterten Methode .
  2. Die Varianz einer Datenmenge sagt dir, wie weit verstreut die einzelnen Datenpunkte liegen. Je näher die Varianz an Null liegt, desto enger liegen die Datenpunkte zusammen. Wenn du mit einer Stichprobe arbeitest, verwende folgende Formel zur Berechnung der Varianz: [3]
    • = ∑[( - x̅) ] / (n - 1)
    • ist die Varianz. Die Varianz wird immer in Quadrateinheiten gemessen.
    • repräsentiert einen Term aus deinem Datensatz.
    • ∑ steht für "Summe" und bedeutet, dass du die folgenden Terme für jedes berechnen und anschließend addieren musst.
    • x̅ ist der Mittelwert der Stichprobe.
    • n ist die Anzahl der Datenpunkte.
  3. Das Symbol x̅ oder „x-Strich“ bezieht sich auf den Mittelwert einer Stichprobe. [4] Berechne es wie jeden anderen Mittelwert auch: addiere alle Datenpunkte zusammen und teile die Summe durch die Anzahl an Datenpunkten.
    • Beispiel: Addiere zuerst deine Datenpunkte zusammen: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Dann teilst du das Ergebnis durch die Anzahl an Datenpunkten, in unserem Fall sechs: 84 ÷ 6 = 14.
      Mittelwert der Stichprobe = x̅ = 14 .
    • Du kannst dir den Mittelwert auch als „Mittelpunkt“ des Datensatzes vorstellen. Wenn die Werte sich um den Mittelpunkt drängen, ist die Varianz niedrig. Wenn sie weit vom Mittelpunkt weg streuen, ist die Varianz hoch.
  4. Jetzt musst du - x̅ berechnen, wobei für jeden Wert in deinem Datensatz steht. Jedes Teilergebnis gibt dir die Abweichung des jeweiligen Werts vom Mittelwert, oder einfacher ausgedrückt, wie weit er vom Mittelwert weg liegt. [5] .
    • Beispiel:
      - x̅ = 17 - 14 = 3
      - x̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13 - 14 = -1
    • Du kannst dein Vorgehen leicht überprüfen, da die Ergebnisse sich zu Null addieren müssen. Der Grund ist die Definition des Mittelwerts. Alle negativen Ergebnisse (die Distanz zwischen dem Mittelwert und kleinen Werten) müssen sich genau mit den positiven Ergebnissen (die Distanz zwischen dem Mittelwert und großen Werten) ausgleichen.
  5. Wie bereits erwähnt, deine momentane Liste von Abweichungen ( - x̅) summiert sich zu Null. Das bedeutet, die „durchschnittliche Abweichung“ beträgt ebenfalls immer Null. Das sagt uns also nichts über die Streuung der Daten. Um dieses Problem zu lösen, müssen wir jede der Abweichungen quadrieren. Dadurch werden sie alle positiv und positive und negative Werte können sich nicht länger ausgleichen. [6]
    • Beispiel:
      ( - x̅)
      - x̅)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Damit hast du den Wert von ( - x̅) für jeden Datenpunkt in deiner Stichprobe.
  6. Jetzt musst du den gesamten Zähler der Formel berechnen: ∑[( - x̅) ]. Das große Sigma, ∑, steht für die Summe der Werte aller folgenden Terme für alle . Da du bereits ( - x̅) für jeden Wert von in deiner Stichprobe berechnet hast, musst du nur noch die Ergebnisse addieren.
    • Beispiel: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. In früheren Zeiten dividierten Statistiker nur durch n , wenn sie die Varianz einer Stichprobe berechnen wollten. Dadurch bekamen sie den Durchschnittswert der quadrierten Abweichungen, was genau der Varianz der Stichprobe entspricht. Allerdings darf dabei nicht vergessen werden, dass die Stichprobe ja nur eine Schätzung einer größeren Grundgesamtmenge entspricht. Wenn du eine andere zufällige Stichprobe der Grundgesamtmenge nehmen und dieselben Berechnungen durchführen würdest, würdest du ein anderes Ergebnis erhalten. Wie sich herausgestellt hat, gibt dir die Division durch n – 1 eine genauere Schätzung der Varianz der Grundgesamtmenge, woran wir ja eigentlich interessiert sind. Diese Korrelation ist so verbreitet, dass sie inzwischen zur akzeptierten Definition der Varianz einer Stichprobe geworden ist. [7]
    • Beispiel : Es gibt sechs Datenpunkte in unserer Stichprobe, also entspricht n = 6.
      Varianz der Stichprobe = 33,2
  8. Achte darauf, dass aufgrund des Exponenten in der Formel, eine Varianz immer in den Quadrateinheiten der original Daten gemessen wird. Das kann manchmal schwer intuitiv zu verstehen sein. Deswegen ist es oft sinnvoll, stattdessen die Standardabweichung zu verwenden. Deine Mühen waren allerdings nicht umsonst, die Standardabweichung entspricht einfach der Quadratwurzel der Varianz. Darum wird die Varianz einer Stichprobe als dargestellt und die Standardabweichung der Stichprobe als .
    • Die Standardabweichung des oben genannten Beispiels ist z.B.: s = √33,2 = 5,76.
    Werbeanzeige
Methode 2
Methode 2 von 2:

Die Varianz einer Grundgesamtmenge berechnen

PDF herunterladen
  1. Der Begriff „Grundgesamtmenge“ bezieht sich auf die Gesamtheit aller relevanten Beobachtungen. Wenn du z.B. eine Studie über das Alter aller Menschen in Texas anfertigen willst, beinhaltet die Grundgesamtmenge das Alter jedes einzelnen Texaners. Für eine solche große Datenmenge müsstest du normalerweise eine Tabellenkalkulation anfertigen. Wir zeigen den Vorgang hier aber anhand eines kleineren Datensatzes:
    • Beispiel : In einem Aquarium befinden sich exakt sechs Fischtanks. Diese sechs Tanks enthalten folgende Anzahl an Fischen:





  2. Da eine Grundgesamtmenge alle nötigen Daten beinhaltet, gibt dir diese Formel die exakte Varianz der Grundgesamtmenge. Um sie von der Varianz einer Stichprobe zu unterscheiden (bei der es sich nur um eine Schätzung handelt), verwenden Statistiker unterschiedliche Variablen: [8]
    • σ = (∑( - μ) ) / n
    • σ = Varianz der Grundgesamtmenge. Das Zeichen ist ein kleines, quadriertes Sigma. Varianz wird immer in Quadrateinheiten gemessen.
    • entspricht einem Term in deinem Datensatz.
    • Die Terme innerhalb von ∑ werden für jeden Wert von berechnet und anschließend summiert.
    • μ ist der Mittelwert der Grundgesamtmenge.
    • n ist die Anzahl an Datenpunkten in der Grundgesamtmenge.
  3. Wenn du eine Grundgesamtmenge analysierst, steht das Symbol μ („My“) für den arithmetischen Mittelwert. Um den Mittelwert zu bestimmen, addierst du alle Datenpunkte zusammen und dividierst das Ergebnis durch die Anzahl der Datenpunkte.
    • Du kannst dir den Mittelwert als den „Durchschnittswert“ vorstellen. Sei aber vorsichtig, da das Wort mehrere Definitionen in der Mathematik hat.
    • Beispiel : Mittelwert = μ = = 10,5
  4. Datenpunkte, die näher am Mittelwert liegen, ergeben einen Differenz, die näher an der Null liegt. Wiederhole die Subtraktion für jeden Datenpunkt und du bekommst vielleicht ein Gefühl dafür, wie groß die Streuung deiner Daten ist.
    • Beispiel:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 – 10,5 = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Im Moment sind einige deiner Ergebnisse aus dem letzten Schritt negativ und andere positiv. Wenn du dir deine Daten auf einem Zahlenstrahl vorstellst, repräsentieren diese beiden Kategorien Zahlen, die links vom Mittelwert liegen und Zahlen, die rechts vom Mittelwert liegen. Für die Berechnung der Varianz ist das nicht sinnvoll, da die beiden Kategorien sich gegenseitig aufheben. Quadriere jedes Ergebnis, um sie alle positiv zu machen.
    • Beispiel:
      ( - μ) für jeden Wert von i von eins bis sechs:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2.25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Jetzt hast du einen Wert für jeden Datenpunkt, der (indirekt) angibt, wie weit der Datenpunkt vom Mittelwert weg liegt. Nimm den Mittelwert dieser Werte, indem du sie alle zusammenaddierst und sie durch die Anzahl an Werten dividierst.
    • Beispiel:
      Varianz der Grundgesamtmenge = 24,25
  7. Wenn du dir nicht sicher bist, wie dieses Vorgehen zur der Formel am Anfang dieser Methode passt, schreibe das ganze einmal aus:
    • Nachdem du die Differenz zwischen Mittelwert und dem quadrierten Wert gefunden hast, hast du die Werte ( - μ) , ( - μ) usw. bis ( - μ) , wobei der letzte Datenpunkt der Datenmenge ist.
    • Um den Mittelwert dieser Werte zu bestimmen, musst du sie aufaddieren und durch n dividieren: ( ( - μ) + ( - μ) + ... + ( - μ) ) / n
    • Nachdem du den Zähler mithilfe des Sigma-Zeichens umgeschrieben hast, erhältst du (∑( - μ) ) / n , die Formel für die Varianz.
    Werbeanzeige

Tipps

  • Da die Interpretation der Varianz nicht immer einfach ist, ist der Wert meist nur der Ausgangspunkt zur Berechnung der Standardabweichung.
  • n – 1 statt n im Nenner der Formel für die Varianz einer Stichprobe zu verwenden, wird allgemein auch als „Bessel-Korrektur“ bezeichnet. Die Stichprobe ist nur eine Schätzung der kompletten Grundgesamtmenge und der Mittelwert der Stichprobe ist dementsprechend ungenau. Die Korrektion entfernt diese Ungenauigkeit.
Werbeanzeige

Über dieses wikiHow

Zusammenfassung X

Um die Varianz zu berechnen, ermittle zunächst den Mittelwert oder den Durchschnitt deiner Stichprobe. Dann subtrahierst du den Mittelwert von jedem Datenpunkt und quadrierst die Differenzen. Als nächstes summierst du alle quadratischen Unterschiede. Teile schließlich die Summe durch n minus 1, wobei n gleich der Gesamtzahl der Datenpunkte in deiner Probe ist. Scrolle weiter nach unten um zu lernen, wie du die Varianz einer Bevölkerung berechnest!

Diese Seite wurde bisher 33.631 mal abgerufen.

War dieser Artikel hilfreich?

Werbeanzeige