PDF download PDF herunterladen PDF download PDF herunterladen

In der Statistik ist ein Ausreißer ein Messpunkt, der sich numerisch deutlich von den anderen Messwerten der Messreihe unterscheidet. Ausreißer weißen oft auf Unregelmäßigkeiten in einer beobachteten Datenreihe hin oder können Fehler bei den Messungen offenbaren. Wenn Ausreißer vernachlässigt werden, können oft signifikante Veränderungen in der Bewertung der Ergebnisse der Studie entstehen. Für das richtige Verständnis der Daten ist es wichtig, dass du weißt, wie man Ausreißer berechnet und richtig bewertet. Dadurch kannst du präzisere Schlussfolgerungen aus deinen statistischen Daten ziehen.

Vorgehensweise

PDF download PDF herunterladen
  1. Bevor du du entscheiden kannst, ob du einen ungewöhnlichen Wert in einer gegebenen Datenreihe vernachlässigen kannst, musst du zunächst potentielle Ausreißer identifizieren. Allgemein gehalten, Ausreißer sind Datenpunkte, die entscheidend vom Trend der anderen Werte in einer Datenreihe abweichen – in anderen Worten, sie reißen aus . Sie sind meist recht einfach in Tabellen oder (besonders) in Graphen auszumachen. Wenn die Datenreihe in einem Graphen dargestellt wird, liegen Ausreißer weit entfernt von den anderen Werten. Wenn z.B. die Mehrzahl der Punkte einer Datenreihe auf einer geraden Linie liegen, können Ausreißer nicht vernünftig zu dieser Linie beitragen.
    • Nehmen wir als Beispiel an, dass du einen Datensatz über die Temperatur von 12 verschiedenen Objekten in einem Raum hast. Falls 11 Objekte eine Temperatur um 70 Grad Celsius besitzen, aber das zwölfte Objekt (vielleicht ein Ofen) eine Temperatur von 300 Grad Celsius aufweist, kann eine oberflächliche Untersuchung darauf hindeuten, dass die Temperatur des Ofens ein wahrscheinlicher Ausreißer ist.
  2. Der erste Schritt, beim Berechnen von Ausreißern in einem Datensatz, ist den Meridian (Mittelwert) der Datenreihe zu finden. Diese Aufgabe ist deutlich einfacher, wenn du die Werte in eine Reihenfolge vom niedrigsten zum höchsten Wert bringst. Bevor du also fortfährst, ordne die Werte deiner Datenreihe auf diese Weise an.
    • Um beim obigen Beispiel zu bleiben, gehen wir davon aus, dass folgender Datensatz die Temperatur der einzelnen Objekte darstellt: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Der Datensatz sollte folgendermaßen sortiert werden: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Der Median ist der Datenpunkt in der Datenreihe, an dem die Hälfte der Datenpunkte darunter und die Hälfte darüber liegt – er befindet sich also genau in der Mitte der Datenreihe. Falls der Datensatz über eine ungerade Anzahl an Punkten verfügt, ist dieser leicht zu finden – es ist der Punkt, der genauso viele Punkte über wie unter sich hat. Wenn eine Datenreihe allerdings eine gerade Anzahl an Punkten hat, muss, da es keinen wirklichen Mittelpunkt gibt, der Durchschnitt der beiden mittleren Datenpunkte gebildet werden. Bei der Berechnung von Ausreißern wird dem Meridian oft die Variable Q2 zugewiesen – da er zwischen Q1 und Q3 liegt, dem unteren und oberen Quartil, welche wir später noch definieren.
    • Lass dich von einer Datenreihe mit gerader Anzahl an Punkten nicht durcheinanderbringen – der Durchschnitt der beiden Mittelpunkte wird oft ein Punkt sein, der selbst gar nicht in der Datenreihe auftaucht – und das ist in Ordnung. Wenn die beiden Mittelpunkte aber die gleiche Zahl sind, wird ihr Durchschnitt natürlich auch wieder diese Zahl sein, was auch in Ordnung ist.
    • In unserem Beispiel haben wir 12 Punkte. Die mittleren zwei sind Punkt 6 und 7 – bzw. 70 und 71. Der Median für unsere Datenreihe ist also der Durchschnitt dieser beiden Punkte: ((70 + 71) / 2), das ergibt 70,5 .
  4. Dieser Punkt, genannt Q1, ist der Datenpunkt, unter dem sich 25% (oder ein Viertel) der Messwerte befinden. In anderen Worten, der halbe Bereich deiner Punkte unter dem Meridian. Wenn du eine gerade Anzahl an Werten unter dem Meridian hast, musst du wieder den Durchschnitt der beiden mittleren Werte bilden, um Q1 zu finden, genauso wie du es bei der Berechnung des Meridian selbst auch getan hast.
    • In unserem Beispiel liegen 6 Punkte unter dem Meridian. Es muss also wieder der Durchschnitt aus 2 Datenpunkten gebildet werden, um das untere Quartil zu finden. Die Punkte 3 und 4 der unteren 6 entsprechen beide dem Wert 70. Den Durchschnitt berechnest du mit ((70 + 70) / 2), du erhältst als Ergebnis für Q1 also 70 .
  5. Dieser Punkt, genannt Q3, ist der Datenpunkt, über dem sich 25% der Messwerte befinden. Du findest Q3 genauso wie du Q1 gefunden hast, nur dass du jetzt die Punkte über dem Meridian verwenden musst, und nicht die darunter.
    • In unserem Beispiel sind die beiden mittleren Punkte, der 6 Punkte über dem Meridian, die Punkte 71 und 72. Berechne den Durchschnitt dieser beiden Punkte und du erhältst ((71 + 72) / 2), = 71,5 . Der für Q3 ist also 71,5.
  6. Nachdem wir Q1 und Q3 definiert haben, müssen wir den Abstand zwischen diesen beiden Variablen berechnen. Der Abstand von Q1 zu Q3 wird berechnet, indem man Q1 von Q3 abzieht. Der Wert für den Interquartilsabstand ist wichtig für die Bestimmung der Grenzen für „Nicht-Ausreißer“ in deiner Datenreihe.
    • In unserem Beispiel sind die Werte für Q1 und Q3, 70 und 71,5. Für den Interquartilsabstand subtrahieren wir Q3 – Q1 = 71,5 – 70 = 1,5 .
    • Anmerkung: Das funktioniert selbst dann, wenn Q1 und Q3 negative Zahlen sind. Wenn z.B. unser Q1-Wert -70 entspräche, wäre unser Interquartilsabstand 71,5 - (-70) = 141,5. Was richtig wäre.
  7. Ausreißer werden identifiziert, indem man untersucht, ob sie innerhalb bestimmter numerischer Grenzen liegen, genannt innere und äußere Zäune. Ein Punkt, der außerhalb des inneren Zauns liegt, wird als „milde Ausreißer“, während Punkte, die außerhalb des äußeren Zauns liegen, als „extreme Ausreißer“ bezeichnet werden. Um den inneren Zaun deiner Datenreihe zu finden, musst du zunächst den Interquartilsabstand mit 1,5 multiplizieren. Dann, addiere das Ergebnis zu Q3 und subtrahiere es von Q1. Die beiden daraus entstehenden Werte sind die die Grenzen des inneren Zauns deiner Datenreihe.
    • In unserem Beispiel ist der Quartilsabstand (71.5 - 70), also 1,5; multipliziert mit 1,5 ergibt sich 2,25. Wir addieren diesen Wert zu Q3 und subtrahieren ihn von Q1, um den inneren Zaun zu finden:
      • 71,5 + 2,25 = 73,75
      • 70 – 2,25 = 67,75
      • Damit sind die Grenzen unseres inneren Zauns 67,65 und 73,75 .
    • In unsere Datenreihe liegt nur die Temperatur des Ofens – 300 Grad – außerhalb dieses Bereiches und müsste deswegen ein milder Ausreißer sein. Wir müssen allerdings noch bestimmen, ob dieser Wert ein extremer Ausreißer ist, also sollten wir hier noch keine Schlussfolgerungen ziehen.
  8. Dies geschieht auf dem gleichen Weg wie beim inneren Zaun, außer, dass wir den Interquartilsabstand mit 3 multiplizieren, anstatt mit 1,5. Um die untere und obere Grenze unseres äußeren Zauns zu finden, wird das Ergebnis dann wieder zu Q3 addiert und von Q1 subtrahiert.
    • In unserem Beispiel führt die Multiplikation des Interquartilsabstand mit 3 zu (1,5*3) oder 4,5. Wir finden die Grenzen des äußeren Zauns auf die gleiche Weise wie oben:
      • 71,5 + 4,5 = 76
      • 70 – 4,5 = 65,5
      • Die Grenzen für unseren äußeren Zaun sind 65,5 und 76 .
    • Jeder Punkt außerhalb dieses äußeren Zauns wird als extremer Ausreißer betrachtet. In unserem Beispiel liegt die Temperatur des Ofens, 300 Grad, deutlich außerhalb des äußeren Zauns, ist also definitiv ein extremer Ausreißer.
  9. Mit der oben beschriebenen Methode kannst du bestimmen, ob ein bestimmter Punkt ein milder Ausreißer, ein extremer Ausreißer oder gar kein Ausreißer ist. Aber, das darfst du nicht falsch verstehen – nur weil du einen Punkt als Ausreißer identifiziert hast, heißt das noch lange nicht, dass du ihn auch vernachlässigen darfst. Er ist kein Punkt, der aus der Reihe gestrichen werden muss . Der Grund , warum ein Ausreißer vom Rest der Datenpunkte in einer Reihe abweicht, ist das entscheidende Kriterium dafür, ob du ihn vernachlässigen kannst oder nicht. Grundsätzlich kannst du Ausreißer, die auf einen Fehler irgendeiner Art zurückzuführen sind – ein Fehler in der Messung, der Aufnahme oder des Versuchsaufbaus – meist weglassen. Aber auf der anderen Seite, kannst du Ausreißer, die nicht als Fehler definiert werden können und die neue Informationen oder Trends enthüllen, die ursprünglich nicht vorhergesehen wurden, nicht weglassen.
    • Ein weiteres Kriterium ist die Überlegung, ob ein Ausreißer einen so signifikanten Einfluss auf den Mittelwert (Durchschnitt) einer Datenreihe hat, das die Ergebnisse verdreht oder fehlleitend sind. Das ist besonders wichtig, wenn du vorhast deine Schlussfolgerungen aus dem Mittelwert der Datenreihe zu ziehen.
    • Betrachten wir unser Beispiel. Wir können fast sicher davon ausgehen, dass der Ofen nicht von unvorhergesehenen Naturkräften bis auf 300 Grad aufgeheizt, sondern wahrscheinlich aus Versehen angelassen wurde, wodurch die ungewöhnlich hohe Temperatur zu Stande kam. Außerdem, wenn wir den Ausreißer nicht weglassen, bekommen wir einen Mittelwert der Datenreihe von (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Grad. Während wir, wenn wir den Ausreißer weglassen, einen Mittelwert von (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Grad erhalten.
      • Da der Ausreißer auf einen menschlichen Fehler zurückzuführen ist und es falsch wäre anzunehmen, dass die Durchschnittstemperatur im Raum fast 90 Grad beträgt, sollten wir den Ausreißer versuchen wegzulassen.
  10. Während manche Ausreißer aus Datenreihen gelöscht werden sollten, weil sie aus Fehlern entstanden sind und/oder das Ergebnis verfälschen, sollten andere beibehalten werden. Wenn z.B. Ausreißer wirklich so aufgenommen wurden (also nicht das Resultat eines Fehlers sind) und/oder neue Einsichten in das Phänomen geben, das untersucht wird, sollten sie nicht außer Acht gelassen werden. Wissenschaftliche Experimente sind besonders sensibel, wenn es zu Ausreißern kommt – einen Ausreißer fehlerhaft wegzulassen, kann entscheidende Informationen, neue Trends oder Entdeckungen verloren gehen lassen.
    • Nehmen wir z.B. einmal an, wir wollen ein neues Medikament erzeugen, um die Größe von Fischen in einem Fischtank zu erhöhen. Wir verwenden wieder unsere alte Datenreihe ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), nur dieses Mal, steht jeder Punkt für die Masse eines Fisches (in Gramm), nachdem er von Geburt an mit diesem experimentellen Medikament behandelt wurde. In anderen Worten, das Medikament sorgte beim ersten Fisch für eine Masse von 71 Gramm, beim zweiten eine Masse von 70 Gramm, usw. Auch in diesem Fall wäre 300 immer noch ein extremer Ausreißer, aber wir sollten ihn nicht weglassen, da er, vorausgesetzt es liegt kein Fehler vor, für einen signifikanten Erfolg des Experiments steht. Das Medikament, das zu einem 300 Gramm Fisch geführt hat, funktionierte weit besser als jedes der anderen Medikamente. Dieser Punkt ist als der wichtigste Punkt in unserer Datenreihe, nicht der unwichtigste .
    Werbeanzeige

Tipps

  • Wenn du Ausreißer findest, versuche ihre Anwesenheit zu erklären, bevor du sie vernachlässigst; die können auf Messfehler oder Unregelmäßigkeiten in der Verteilung hindeuten.
Werbeanzeige

Was du brauchst

  • Taschenrechner

Über dieses wikiHow

Diese Seite wurde bisher 37.340 mal abgerufen.

War dieser Artikel hilfreich?

Werbeanzeige