Pdf downloaden Pdf downloaden

Een uitbijter of uitschieter in de statistiek is een datapunt dat significant verschilt van de andere datapunten in een steekproef. Vaak wijzen uitbijters statistici op afwijkingen of fouten in de metingen, waarna ze de uitbijter uit de gegevensset kunnen verwijderen. Als ze er daadwerkelijk voor kiezen om de uitbijters uit de gegevensset te verwijderen, kan dat belangrijke veranderingen opleveren in de conclusies die worden getrokken uit het onderzoek. Hierom is het belangrijk om uitbijters te berekenen en vast te stellen als je statistische gegevens goed wil interpreteren.

  1. Voor we kunnen beslissen of we afwijkende waarden uit een bepaalde gegevensset moeten verwijderen, moeten we uiteraard eerst de mogelijke uitbijters in de gegevensset herkennen. Over het algemeen zijn uitbijters de datapunten die sterk afwijken van de trend die de andere waarden in de set vormen – met andere woorden: ze schieten uit van de andere waarden. Het is doorgaans makkelijk om dit te herkennen in tabellen en (vooral) in grafieken. Als de gegevensset visueel in een grafiek wordt uitgedrukt zullen de uitbijters ‘ver weg’ liggen van de andere waarden. Als bijvoorbeeld de meeste punten in een gegevensset een rechte lijn vormen, zullen uitbijters zich juist niet naar deze lijn laten schikken.
    • Laten we eens kijken naar een gegevensset die de temperaturen van 12 verschillende voorwerpen in een kamer laat zien. Als de temperatuur van 11 van de voorwerpen met hoogstens een paar graden schommelt rond de 21 °C, terwijl één object, een oven, een temperatuur heeft van 150 °C, kan je in één oogopslag zien dat de oven waarschijnlijk een uitbijter is.
  2. De eerste stap in het berekenen van uitbijters is het vinden van de mediaanwaarde (of de middelste waarde) van de gegevensset. Deze taak wordt veel makkelijker als de waarden in de set op volgorde staan van laag naar hoog. Dus sorteer voor je verdergaat de waarden in je gegevensset op deze manier.
    • Laten we verder werken met het bovenstaande voorbeeld. Hier is onze gegevensset die de temperaturen in graden Fahrenheit van verschillende voorwerpen in een kamer laat zien: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Als we de waarden in de set sorteren van laag naar hoog, wordt dit onze nieuwe set: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. De mediaan van een gegevensset is het datapunt waarbij de helft van de gegevens erboven ligt, en de helft van de gegevens eronder - het is in feite het ‘middelpunt’ van de gegevensset. Als de gegevensset een oneven aantal punten bevat is de mediaan makkelijk te vinden – de mediaan is dan het punt met net zoveel punten erboven als eronder. Als er een even aantal punten is moet je, omdat er niet één middelpunt is, het gemiddelde van de twee middelste punten nemen om de mediaan te vinden. Bij het berekenen van uitbijters wordt de mediaan meestal aangeduid met de variabele Q2 – omdat het tussen Q1 en Q3 ligt, de eerste en derde kwartielen. We zullen deze variabelen later bepalen.
    • Laat je niet in de war brengen door gegevenssets met een even aantal punten - het gemiddelde van de twee middelste punten is vaak een getal dat niet in de gegevensset zelf voorkomt - dit is oké. Als de twee middelste punten echter hetzelfde zijn, zal het gemiddelde uiteraard ook dit getal zijn - ook dit is oké .
    • In ons voorbeeld hebben we 12 punten. De middelste twee termen zijn punten 6 en 7 – respectievelijk 70 en 71. De mediaan van onze gegevensset is dus het gemiddelde van deze twee punten: ((70 + 71) / 2)= 70,5 .
  4. Dit punt, dat we aanduiden met de variabele Q1, is het datapunt waaronder 25 procent (of een kwart) van de observaties ligt. In andere woorden: dit is het middelpunt van alle punten in je gegevensset onder de mediaan. Als er een even aantal waarden onder de mediaan ligt moet je wederom het gemiddelde nemen van de twee middelste waarden om Q1 te vinden, zoals je dat wellicht al had gedaan om de mediaan zelf te bepalen.
    • In ons voorbeeld liggen zes punten boven de mediaan, en zes eronder. Om het eerste kwartiel te vinden moeten we dus het gemiddelde nemen van de twee middelste punten in de onderste zes punten. Punten 3 en 4 van de onderste zes zijn beiden 70, dus hun gemiddelde is ((70 + 70) / 2)= 70 . Onze waarde voor Q1 is dus 70.
  5. Dit punt, dat we aanduiden met de variabele Q3, is het datapunt waarboven 25 procent van de gegevens ligt. Het vinden van Q3 is praktisch hetzelfde als het vinden van Q1, behalve dat we in dit geval kijken naar de punten boven de mediaan.
    • Als we doorgaan met het bovenstaande voorbeeld, zien we dat de twee middelste punten van de zes punten boven de mediaan 71 en 72 zijn. Het gemiddelde van deze twee punten is ((71 + 72) / 2)= 71,5 . Onze waarde voor Q3 is dus 71,5.
  6. Nu we Q1 en Q3 hebben bepaald moeten we de afstand tussen deze twee variabelen berekenen. De afstand tussen Q1 en Q3 kun je vinden door Q1 van Q3 af te trekken. De waarde die je krijgt voor de interkwartielafstand is cruciaal voor het bepalen van de grenzen voor niet-afwijkende punten in je gegevensset.
    • In ons voorbeeld zijn de waarden voor Q1 en Q3 respectievelijk 70 en 71,5. Om de interkwartielafstand te vinden, berekenen we Q3 - Q1: 71,5 - 70= 1,5 .
    • Dit werkt zelfs als Q1, Q3, of beide getallen negatief zijn. Als bijvoorbeeld onze waarde voor Q1 -70 zou zijn, zou de interkwartielafstand uitkomen op 71,5 - (-70)=141,5, wat klopt.
  7. Je kunt uitbijters herkennen door vast te stellen of ze binnen een aantal numerieke grenzen vallen; de zogenaamde ‘binnenste grenswaarden’ en ‘buitenste grenswaarden’. Een punt dat buiten de binnenste grenswaarden van de gegevensset valt wordt geclassificeerd als een milde uitbijter , en een punt dat buiten de buitenste grenswaarden valt wordt geclassificeerd als een extreme uitbijter . Om de binnenste grenswaarden van je gegevensset te vinden, vermenigvuldig je eerst de interkwartielafstand met 1,5. Tel het resultaat op bij Q3 en trek het af van Q1. De twee resultaten zijn de binnenste grenswaarden van je gegevensset.
  8. Dit doe je op dezelfde manier als met de binnenste grenswaarden, met als enige verschil dat je de interkwartielafstand vermenigvuldigt met 3 in plaats van met 1,5. Het resultaat tel je vervolgens op bij Q3 en trek je af van Q1 om de buitenste grenswaarden te vinden.
  9. Met de bovenstaande methode kan je bepalen of bepaalde punten milde uitbijters, extreme uitbijters of helemaal geen uitbijters zijn. Maar vergis je niet – een punt herkennen als een uitbijter maakt het slechts een kandidaat om verwijderd te worden uit de gegevensset, en niet meteen een punt dat verwijderd moet worden. De reden waarom een uitbijter verschilt van de rest van de punten in de set is cruciaal in het bepalen of de uitbijter verwijderd moet worden. Over het algemeen worden uitbijters die veroorzaakt zijn door een of andere fout - een fout in de metingen, in de opnamen of in het experimenteel ontwerp bijvoorbeeld - verwijderd. Daarentegen worden uitbijters die niet veroorzaakt zijn door fouten en die nieuwe, niet-voorspelde informatie of trends blootleggen, meestal niet verwijderd.
    • Een ander criterium om te overwegen is of de uitbijters het gemiddelde van een gegevensset beïnvloeden op een manier die scheef of misleidend is. Dit is helemaal belangrijk als je van plan bent conclusies te trekken uit het gemiddelde van je gegevensset.
    • Laten we ons voorbeeld beoordelen. Aangezien het hoogst onwaarschijnlijk is dat de oven een temperatuur bereikte van 300 °F door een of andere onvoorziene natuurkracht, kunnen we in ons voorbeeld met bijna 100% zekerheid concluderen dat de oven per ongeluk was aangelaten, wat zorgde voor een abnormaal hoge temperatuurmeting. Bovendien, als we de uitbijter niet verwijderen komt het gemiddelde van onze gegevensset uit op (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12=89,67 °F, terwijl het gemiddelde zonder de uitbijter uitkomt op (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11=70,55 °F.
      • Aangezien de uitbijter veroorzaakt werd door een menselijke fout, en omdat het onjuist is om te zeggen dat de gemiddelde kamertemperatuur bijna 32 °C bedroeg, moeten we ervoor kiezen om onze uitbijter te verwijderen .
  10. Hoewel sommige uitbijters verwijderd moeten worden uit een gegevensset omdat ze het resultaat zijn van fouten, of omdat ze de resultaten op een misleidende manier scheeftrekken, moeten andere uitbijters juist behouden blijven. Als een uitbijter bijvoorbeeld correct is verkregen (en dus niet het resultaat is van een fout) en/of als de uitbijter een nieuw inzicht biedt in het te meten fenomeen, moet deze niet meteen worden verwijderd. Wetenschappelijke experimenten zijn bijzonder gevoelige situaties als het aankomt op het omgaan met uitbijters – ten onrechte een uitbijter verwijderen kan betekenen dat je belangrijke informatie over een nieuwe trend of ontdekking weggooit.
    • Bijvoorbeeld: stel je voor dat we een nieuw medicijn aan het ontwerpen zijn om vissen in een viskwekerij groter te laten groeien. Laten we onze oude gegevensset gebruiken ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), met het verschil dat elk punt nu staat voor de massa van een vis (in grammen) na behandeling met een ander experimenteel medicijn vanaf de geboorte. In andere woorden, het eerste medicijn gaf een vis een massa van 71 gram, het tweede gaf een andere vis een massa van 70 gram, enzovoort. In deze situatie is 300 nog steeds een enorme uitbijter, maar we moeten deze nu niet verwijderen. Want, als we ervan uitgaan dat de uitbijter niet het resultaat is van een fout, staat deze voor een groot succes in ons experiment. Het medicijn dat zorgde voor een vis van 300 gram werkte beter dan alle andere medicijnen, en dus is dit juist het meest belangrijke datapunt in onze set, in plaats van het minst belangrijke datapunt.
    Advertentie

Tips

  • Als je uitbijters vindt, probeer ze dan te verklaren voordat je ze verwijdert uit de gegevensset; ze kunnen wijzen op meetfouten of afwijkingen in de verdeling.
Advertentie

Benodigdheden

  • Rekenmachine

Over dit artikel

Deze pagina is 13.833 keer bekeken.

Was dit artikel nuttig?

Advertentie