Die Kovarianz ist eine statistische Berechnung, die dir zu verstehen hilft, wie zwei Datensätze miteinander in Beziehung stehen. Nehmen wir zum Beispiel an, dass Anthropologen die Größe und das Gewicht einer menschlichen Bevölkerung in einer Kultur untersuchen. Für jede Person in der Studie können die Größe und das Gewicht durch ein (x,y) Datenpaar repräsentiert werden. Diese Werte können in einer Standardformel dazu benutzt werden, die Kovarianz-Beziehung zu berechnen. Dieser Artikel erklärt zunächst die Berechnungen, welche die Kovarianz eines Datensatzes herausfinden. Dann spricht er zwei weitere, automatisierte Methoden an, um das Ergebnis herauszufinden.
Vorgehensweise
Die Kovarianz mit der Standardformel von Hand berechnen
-
Lerne die Standard-Kovarianz-Formel und ihre Teile. Die Standardformel zur Berechnung der Kovarianz lautet . Um diese Formel zu benutzen, musst du die Bedeutung der Variablen und Symbole verstehen: [1] X Forschungsquelle
- - Dieses Symbol ist der griechische Buchstabe "Sigma". In mathematischen Funktionen bedeutet es, eine Reihe von was auch immer ihr folgt, zu addieren. In dieser Formel bedeutet das Σ-Zeichen, dass du die Werte berechnest, die im Zähler des Bruchs aufeinander folgen. Dann addierst du sie alle miteinander, bevor du sie durch den Nenner teilst. [2] X Forschungsquelle
- - Diese Variable wird als "x über i" gelesen. Das tiefgestellte i repräsentiert einen Zähler. Es bedeutet, dass du die Berechnung für jeden Wert von x durchführst, den du in deinem Datensatz hast.
- - Das "i.M." zeigt an, dass x(i.M.) der Durchschnittswert all deiner x-Datenpunkte ist. Der Durchschnittswert wird manchmal auch als ein x mit einer kurzen waagerechten Linie darüber geschrieben. In diesem Stil wird die Variable als "x-Balken" gelesen, bedeutet aber immer noch den Durchschnitt des Datensatzes.
- - Diese Variable wird als "y über i" gelesen. Das tiefgestellte i repräsentiert einen Zähler. Es bedeutet, dass du die Berechnung für jeden Wert von y durchführst, den du in deinem Datensatz hast.
- - Das "i.M." zeigt an, dass y(i.M.) der Durchschnittswert all deiner x-Datenpunkte ist. Der Durchschnittswert wird manchmal auch als ein y mit einer kurzen waagerechten Linie darüber geschrieben. In diesem Stil wird die Variable als "y-Balken" gelesen, bedeutet aber immer noch den Durchschnitt des Datensatzes.
- - Diese Variable repräsentiert die Anzahl an Elementen in deinem Datensatz. Vergiss nicht, dass bei einer Kovarianz-Aufgabe ein einzelnes "Element" sowohl aus einem x-Wert, als auch aus einem y-Wert zusammengesetzt ist. Der Wert von n ist die Anzahl an Datenpunktpaaren und nicht an einzelnen Zahlen.
-
Richte deine Datentabelle ein. Bevor du mit der Arbeit anfängst, ist es hilfreich, deine Daten zu sammeln. Du solltest eine Tabelle anfertigen, die aus fünf Spalten besteht. Du solltest jede Spalte wie folgt beschriften:
- - Fülle diese Spalte mit den Werten deiner x-Datenpunkte.
- - Fülle diese Spalte mit den Werten deiner y-Datenpunkte. Passe auf, dass du die y-Werte nach den entsprechenden x-Werten ausrichtest. Bei einer Kovarianz-Aufgabe ist die Reihenfolge der Datenpunkte und der Paarungen von x und y wichtig.
- - Lasse diese Spalte am Anfang frei. Du füllst sie mit Daten, nachdem du den Durchschnitt der x-Datenpunkte errechnet hast.
- - Lasse diese Spalte am Anfang frei. Du füllst sie mit Daten, nachdem du den Durchschnitt der y-Datenpunkte errechnet hast.
- - Lasse diese letzte Spalte ebenfalls frei. Du füllst sie aus, während du weiter arbeitest.
-
Berechne den Durchschnitt der x-Datenpunkte. Dieser Beispieldatensatz enthält neun Zahlen. Addiere sie miteinander und teile die Summe durch 9, um den Durchschnitt zu berechnen. Das ergibt 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Wenn du es durch 9 teilst, beträgt der Durchschnitt 4,89. Das ist der Wert, den du für die kommenden Berechnungen als x(i.M.) benutzt. [3] X Forschungsquelle
-
Berechne den Durchschnitt der y-Datenpunkte. Ähnlich sollte die y-Spalte aus neun Datenpunkten bestehen, die mit den x-Datenpunkten zusammenfallen. Berechne ihren Durchschnitt. Für diesen Beispieldatensatz beträgt er 8+6+9+4+3+3+2+7+7=49. Teile diese Summe durch 9, um einen Durchschnitt von 5,44 zu erhalten. Du benutzt 5,44 als Wert von y(i.M.) für die kommenden Berechnungen. [4] X Forschungsquelle
-
Berechne die -Werte. Für jedes Element in der x-Spalte musst du die Differenz zwischen dieser Zahl und dem Durchschnittswert berechnen. Bei dieser Beispielaufgabe bedeutet das, von jedem x-Datenpunkt 4,89 abzuziehen. Falls dein ursprünglicher Datenpunkt niedriger als der Durchschnitt ist, ist dein Ergebnis negativ. Falls der ursprüngliche Datenpunkt größer als der Durchschnitt ist, ist dein Ergebnis positiv. Achte darauf, die negativen Vorzeichen im Auge zu behalten. [5] X Forschungsquelle
- Zum Beispiel lautet der erste Datenpunkt in der x-Spalte 1. Der Wert, den du in der ersten Zeile der -Spalte einträgst, lautet 1 – 4,89, was -3,89 ergibt.
- Wiederhole den Vorgang mit jedem Datenpunkt. Somit lautet die zweite Zeile 3 – 4,89, welches -1,89 ergibt. Die dritte Zeile lautet 2 – 4,89 oder -2,89. Setze den Vorgang mit allen Datenpunkten fort. Die neun Zahlen in dieser Spalte sollten -3,89, -1,89, -2,89, 0,11, 3,11, 2,11, 7,11, -2,89, -0,89 lauten.
-
Berechne die -Werte. In dieser Spalte führst du ähnliche Subtraktionen durch, wobei du die y-Datenpunkte und den y-Durchschnitt verwendest. Falls der ursprüngliche Datenpunkt niedriger als der Durchschnitt ist, ist dein Ergebnis negativ. Falls der ursprüngliche Datenpunkt größer als der Durchschnitt ist, ist dein Ergebnis positiv. Achte darauf, die negativen Vorzeichen im Auge zu behalten. [6] X Forschungsquelle
- In der ersten Zeile lautet deine Berechnung demnach 8 – 5,44, welches 2,56 ergibt.
- Die zweite Zeile lautet 6 – 5,44, was 0,56 ergibt.
- Setze diese Subtraktionen bis zum Ende der Datenliste fort. Wenn du fertig bist, sollten die neun Werte in dieser Spalte 2,56, 0,56, 3,56, -1,44, -2,44, -2,44, -3,44, 1,56, 1,56 lauten.
-
Berechne die Produkte für jede Datenzeile. Du füllst die Zeilen der letzten Spalte aus, indem du die Zahlen, die du in den beiden vorigen Spalten aus und berechnet hast, miteinander multiplizierst. Passe auf, dass du Zeile für Zeile arbeitest und die beiden Zahlen für die entsprechenden Datenpunkte miteinander multiplizierst. Behalte dabei etwaige negative Vorzeichen im Auge. [7] X Forschungsquelle
- In der ersten Zeile dieses Datenbeispiels beträgt das , das du berechnet hast, -3,89, und der -Wert lautet 2,56. Das Produkt dieser beiden Zahlen ist -3,89 * 2,56 = -9,96.
- In der zweiten Zeile multiplizierst du die beiden Zahlen -1,88 * 0,56 = -1,06.
- Fahre damit fort, Zeile für Zeile bis zum Ende des Datensatzes zu multiplizieren Wenn du fertig bist, sollte diese Spalte -9,96, -1,06, -10,29, -0,16, -7,59, -5,15, -24,46, -4,51, -1,39 enthalten.
-
Berechne die Summe der Werte in der letzten Spalte. Hier kommt das Σ-Symbol ins Spiel. Nach der Durchführung aller Berechnungen, die du bis jetzt erledigt hast, addierst du die Ergebnisse miteinander. Bei diesem Beispieldatensatz solltest du in der letzten Spalte neun Werte haben. Addiere diese neun Zahlen miteinander. Achte sorgfältig darauf, ob die Zahlen positiv oder negativ sind.
- Bei diesem Beispieldatensatz sollte die Summe -64,57 lauten. Schreibe diese Gesamtsumme in das Feld unter der Zeile. Diese repräsentiert den Wert des Zählers der Standard-Kovarianz-Formel.
-
Berechne den Nenner für die Kovarianz-Formel. Der Zähler für die Standard-Kovarianz-Formel ist der Wert, den du gerade fertig berechnet hast. Der Nenner wird durch (n-1) repräsentiert, welches einfach nur 1 weniger als die Anzahl an Datenpaaren in deinem Datensatz ist.
- Bei diesem Beispieldatensatz gibt es neun Datenpaare, also ist n 9. Der Wert von (n-1) ist demnach 8.
-
Teile den Zähler durch den Nenner. Der letzte Schritt bei der Berechnung der Kovarianz ist, den Zähler durch deinen Nenner zu teilen. Der Quotient ist die Kovarianz deiner Daten. [8] X Forschungsquelle
- Bei diesem Beispieldatensatz lautet die Berechnung -64,57/8, was ein Ergebnis von -8,07 ergibt.
Werbeanzeige
-
Beachte die sich wiederholenden Berechnungen. Die Kovarianz ist eine Berechnung, die du ein paar Mal von Hand durchführen solltest, um die Bedeutung des Ergebnisses zu verstehen. Falls du Kovarianz-Werte jedoch routinemäßig bei der Interpretation von Daten verwendest, solltest du nach einer schnelleren und automatisierten Methode suchen, um deine Ergebnisse zu bekommen. Die Berechnungen für unseren relativ kleinen Datensatz von nur neun Datenpaaren haben aus zwei Durchschnittswerten, achtzehn individuellen Subtraktionen, neun separaten Multiplikationen, einer Addition und einer letzten Division bestanden. Das sind 31 relativ kleine Berechnungen, um eine Lösung herauszubekommen. Auf dem Weg dorthin riskierst du, negative Vorzeichen wegzulassen oder deine Ergebnisse falsch zu übertragen und damit das Ergebnis zu ruinieren.
-
Erstelle eine Tabelle, um die Kovarianz zu berechnen. Falls du mit Excel (oder irgendeiner anderen Tabelle mit Kalkulationsmöglichkeiten) vertraut bist, kannst du leicht eine Tabelle einrichten, um die Kovarianz zu berechnen. Beschrifte die obersten Zeilen von fünf Spalten wie für die Berechnungen von Hand: x, y, (x(i)-x(i.M.)), (y(i)-y(i.M.)) und Produkt. [9] X Forschungsquelle
- Um deine Beschriftung zu vereinfachen, solltest du die dritte Spalte "x-Differenz" und die vierte Spalte "y-Differenz" oder so ähnlich nennen, solange du dir die Bedeutung der Daten merkst.
- Wenn du mit deiner Tabelle in der oberen linken Ecke des Datenblatts anfängst, ist Zelle A1 die x-Bezeichnung, während die anderen Beschriftungen bis zu Zelle E1 reichen.
-
Fülle die Datenpunkte aus. Gib deine Datenwerte in die beiden Spalten mit den Bezeichnungen x und y ein. Vergiss nicht, dass die Reihenfolge der Datenpunkte eine Rolle spielt. Du musst daher jedes y mit seinem entsprechenden x-Wert kombinieren. [10] X Forschungsquelle
- Deine x-Werte fangen in Zelle A2 an und setzen sich über so viele Datenpunkte nach unten fort, wie du brauchst.
- Deine y-Werte fangen in Zelle B2 an und setzen sich über so viele Datenpunkte nach unten fort, wie du brauchst.
-
Berechne die Durchschnittswerte der x- und y-Werte. Excel berechnet die Durchschnittswerte sehr schnell für dich. Gib in die erste freie Zelle unter jeder Datenspalte die Formel =AVG(A2:A___) ein. Fülle den Freiraum mit der Zahl der Zelle aus, die deinem letzten Datenpunkt entspricht. [11] X Forschungsquelle
- Falls du zum Beispiel 100 Datenpunkte hast, füllen sie die Zellen A2 bis A101 aus, also gibst du =AVG(A2:A101) ein.
- Gib für die y-Daten die Formel =AVG(B2:B101) ein.
- Vergiss nicht, dass in Excel eine Formel mit einem =-Zeichen beginnt.
-
Gib die Formel für die (x(i)-x(i.M. ))-Spalte ein. In Zelle C2 musst du die Formel eingeben, um die erste Subtraktion zu berechnen. Diese Formel lautet =A2-____. Du füllst den Freiraum mit der Zellenadresse aus, die den Durchschnittswert deiner x-Daten enthält. [12] X Forschungsquelle
- Beim Beispiel der 100 Datenpunkte stünde dieser Durchschnittswert in Zelle A103, also lautet deine Formel =A2-A103.
-
Wiederhole die Formel für die (y(i)-y(i.M. ))-Datenpunkte. Demselben Beispiel folgend käme diese in Zelle D2. Die Formel lautet =B2-B103. [13] X Forschungsquelle
-
Gib die Formel für die "Produkt"-Spalte ein. In die fünfte Spalte, in Zelle E2, musst du die Formel eingeben, um das Produkt der beiden vorherigen Zellen zu berechnen. Das wäre einfach =C2*D2. [14] X Forschungsquelle
-
Kopiere die Formel herunter, um die Tabelle zu füllen. Bis jetzt hast du nur das erste Paar Datenpunkte in Zeile 2 programmiert. Hebe mit deiner Maus die Zellen C2, D2 und E2 hervor. Positioniere deinen Cursor dann über dem kleinen Kästchen in der unteren rechten Ecke, bis ein +-Zeichen erscheint. Klicke mir deinem Maus-Button, halte ihn gedrückt und ziehe die Maus nach unten, um das hervorgehobene Feld auszudehnen und deine gesamte Datentabelle zu füllen. Dieser Schritt kopiert automatisch die drei Formeln aus den Zellen C2, D2 und E2 in die ganze Tabelle hinein. Du solltest die Tabelle sich automatisch mit all den Berechnungen füllen sehen. [15] X Forschungsquelle
-
Programmiere die Summe der letzten Spalte. Du musst die Summe der Elemente in der "Produkt"-Spalte herausfinden. Gib in die freie Zelle direkt unter dem letzten Datenpunkt in der Spalte die Formel =sum(E2:E___) ein. Fülle den Freiraum mit der Zellenadresse des letzten Datenpunkts aus. [16] X Forschungsquelle
- Beim Beispiel von 100 Datenpunkten kommt diese Formel in Zelle E103. Du gibst =sum(E2:E102) ein.
-
Berechne die Kovarianz. Du kannst Excel auch die letzte Berechnung für dich durchführen lassen. Die letzte Berechnung, in unserem Beispiel in Zelle E103, repräsentiert den Zähler der Kovarianz-Formel. Direkt unterhalb dieser Zelle kannst du die Formel =E103/___ eingeben. Fülle den Freiraum mit der Anzahl der Datenpunkte aus, die du hast. In unserem Beispiel ist das 100. Das Ergebnis ist die Kovarianz deiner Daten. [17] X ForschungsquelleWerbeanzeige
-
Suche im Internet nach Kovarianz-Rechnern. Diverse Schulen, Programmierungsfirmen oder andere Quellen haben Webseiten erstellt, die ganz einfach Kovarianz-Werte für dich berechnen. Gib in irgendeine Suchmaschine den Suchbegriff "Kovarianz-Rechner" ein.
-
Gib deine Daten ein. Lies die Anweisungen auf der Webseite aufmerksam, um sicherzustellen, dass du deine Daten richtig eingibst. Es ist wichtig, dass deine Datenpaare in der richtigen Reihenfolge bleiben, sonst generierst du ein falsches Kovarianz-Ergebnis. Verschiedene Webseiten haben unterschiedliche Stile für die Eingabe deiner Daten.
- Zum Beispiel gibt es auf der Webseite http://ncalculators.com/statistics/covariance-calculator.htm ein waagerechtes Feld für die Eingabe der x-Werte und ein zweites waagerechtes Feld für die Eingabe der y-Werte. Du wirst angewiesen, deine Terme nur durch Kommata getrennt einzugeben. Somit würde der x-Datensatz, der früher in diesem Artikel berechnet wurde, als 1,3,2,5,8,7,12,2,4 eingegeben. Der y-Datensatz wäre 8,6,9,4,3,3,2,7,7.
- Auf einer anderen Seite, https://www.thecalculator.co/math/Covariance-Calculator-705.html , wirst du dazu aufgefordert, deine x-Daten im ersten Feld einzugeben. Die Daten werden senkrecht eingegeben, mit einem Element pro Zeile. Daher würde die Eingabe auf dieser Seite so aussehen:
- 1
- 3
- 2
- 5
- 8
- 7
- 12
- 2
- 4
-
Berechne deine Ergebnisse. Die Attraktion dieser Berechnungsseiten ist, dass du, nachdem du deine Daten eingegeben hast, im Allgemeinen nur den Button anzuklicken brauchst, auf dem "Berechnen" steht. Die Ergebnisse erscheinen automatisch. Die meisten Seiten stellen dir die Zwischenberechnungen für x(i.M.), y(i.M.) und n zur Verfügung.Werbeanzeige
-
Halte nach einer positiven oder negativen Abhängigkeit Ausschau. Die Kovarianz ist eine einzelne statistische Zahl, die repräsentiert, wie dein Datensatz von einem anderen abhängt. Im in der Einleitung erwähnten Beispiel werden die Größe und das Gewicht gemessen. Du würdest erwarten, dass ihr Gewicht ebenfalls zunimmt, wenn die Personen größer werden, was zu einer positiven Kovarianz-Zahl führen würde. Nehmen wir als weiteres Beispiel an, dass Daten gesammelt werden, welche die Anzahl an Stunden repräsentieren, die jemand Golf übt, und die Punktestände, die er bekommen kann. In diesem Fall würdest du eine negative Kovarianz erwarten, welche bedeutet, dass der Punktestand sinkt, wenn die Anzahl der Übungsstunden steigt. (Beim Golf ist ein niedrigerer Punktestand besser.) [18] X Forschungsquelle
- Sieh dir den Beispieldatensatz an, der oben berechnet wurde. Die resultierende Kovarianz ist -8,07. Das negative Vorzeichen hier bedeutet, dass die y-Werte dazu neigen, abzunehmen, wenn die x-Werte zunehmen. Du kannst sogar sehen, dass das stimmt, indem du dir ein paar Werte ansiehst. Zum Beispiel entsprechen die x-Werte von 1 und 2 y-Werten von 7, 8 und 9, beziehungsweise die x-Werte von 8 und 12 y-Werten von 3 und 2.
-
Interpretiere die Größenordnung der Kovarianz. Falls die Zahl der Kovarianz-Bewertung groß ist (entweder eine große positive oder eine große negative Zahl), kannst du dieses so interpretieren, dass die beiden Datenelemente sehr stark miteinander verbunden sind (entweder auf positive oder negative Weise). [19] X Forschungsquelle
- Beim Beispieldatensatz ist die Kovarianz von -8,07 ziemlich groß. Beachte, dass die Datenwerte von 1 bis 12 reichen, also ist 8 eine ganz schön hohe Zahl. Das zeigt eine starke Verbindung zwischen den x- und y-Datensätzen an.
-
Verstehe einen Mangel an Beziehung. Falls du am Ende eine Kovarianz gleich oder sehr nahe 0 hast, kannst du daraus schließen, dass die Datenpunkte relativ unabhängig voneinander sind. Das heißt, dass ein Anstieg in einem Wert zu einem Anstieg im anderen führen könnte oder auch nicht. Die beiden Terme sind beinahe zufällig miteinander verbunden. [20] X Forschungsquelle
- Nehmen wir zum Beispiel an, du vergleichst Schuhgrößen mit Bewertungen im Studierfähigkeitstest. Weil es so viele Faktoren gibt, die sich auf die Bewertungen der Studierfähigkeit eines Schülers auswirken, würden wir einen Kovarianz-Wert nahe 0 erwarten. Das würde beinahe keine Verbindung zwischen den beiden Werten anzeigen.
-
Sieh dir die Beziehung graphisch an. Um die Kovarianz visuell zu verstehen, kannst du deine Datenpunkte in ein x-y-Koordinatensystem einzeichnen. Wenn du das tust, solltest du ziemlich leicht sehen, dass die Punkte (obwohl sie keine exakte Gerade bilden) sich einer Diagonalen von oben links nach unten rechts nähern. Das ist die Beschreibung einer negativen Kovarianz. Beachte außerdem, dass der Kovarianz-Wert -8,07 beträgt. Das ist im Vergleich zu den Datenpunkten eine ziemlich große Zahl. Die hohe Zahl deutet an, dass die Kovarianz ziemlich stark ist, was du am linearen Aussehen der Datenpunkte sehen kannst.
- Sieh dir Punkte in ein Koordinatensystem zeichnen an, um nachzuschauen, wie man Punkte in ein Koordinatensystem einzeichnet.
Werbeanzeige
Warnungen
- Die Kovarianz hat in Statistiken eine begrenzte Anwendung. Sie ist oftmals ein Schritt in Richtung der Berechnung von Korrelationskoeffizienten oder anderer Ausdrücke. Sei vorsichtig und interpretiere nicht zu viel in einen Kovarianz-Wert hinein.
Referenzen
- ↑ http://mathworld.wolfram.com/Covariance.html
- ↑ http://mathworld.wolfram.com/Sigma.html
- ↑ https://www.reference.com/math/formula-calculate-average-26e3e5148012bf52
- ↑ https://www.reference.com/math/formula-calculate-average-26e3e5148012bf52
- ↑ http://mathworld.wolfram.com/Covariance.html
- ↑ http://mathworld.wolfram.com/Covariance.html
- ↑ http://mathworld.wolfram.com/Covariance.html
- ↑ http://mathworld.wolfram.com/Covariance.html
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://www.baycongroup.com/excel2007/01_excel.htm
- ↑ http://users.ecs.soton.ac.uk/jn2/teaching/correlations.pdf
- ↑ http://users.ecs.soton.ac.uk/jn2/teaching/correlations.pdf
- ↑ http://users.ecs.soton.ac.uk/jn2/teaching/correlations.pdf