En statistiques, une donnée aberrante est une donnée qui tranche singulièrement avec les autres données d’une série (ou distribution ou échantillon). Le plus souvent, les données aberrantes dans une série statistique alertent les chercheurs, en cela qu’ils ont peut-être commis une erreur de mesure ou mal reporté une donnée ou encore qu’ils ont oublié des données. S’ils écartent ces données aberrantes, il va de soi que leurs analyses et leurs conclusions vont singulièrement changer. C’est la raison pour laquelle, dans cet article, nous allons vous montrer comment on calcule et comment on évalue des données aberrantes. Il en va de la bonne interprétation d’une série statistique.
Étapes
-
Sachez reconnaitre de possibles données aberrantes. Avant que vous ne décidiez d’écarter telle ou telle valeur aberrante de votre série statistique, il convient de s’entendre sur ce qu’on appelle une donnée aberrante et de l’identifier de façon sure. D’une façon générale, les données aberrantes sont des valeurs qui s’écartent grandement des autres valeurs d’une série statistique, autrement dit, elles jurent avec les autres valeurs. Elles apparaissent assez facilement dans les tableaux ou sur les courbes. Sur ces dernières, on voit très nettement que telle valeur ne correspond pas du tout avec les autres, elle est « très loin » des autres valeurs. Pour prendre un exemple simple, si vos données sont alignées sur une droite, la donnée aberrante, elle, n’y est pas du tout !
- Prenons un exemple concret, celui des températures de 12 objets dans une pièce. On a par exemple 11 objets qui ont une température qui tourne autour de 70 degrés Fahrenheit (21 degrés Celsius) et un douzième objet, un four, qui a, lui, une température de 300 degrés Fahrenheit (150 degrés Celsius). Une observation rapide de ces valeurs tendrait à voir dans la température du four une donnée aberrante.
-
Classez les données dans l’ordre croissant. La première étape pour déterminer la ou les données aberrantes d’une distribution statistique est de trouver la médiane (« milieu ») de la distribution. Pour calculer une médiane, il faut classer la série par ordre croissant des valeurs. C’est ce que vous allez faire !
- Reprenons l’exemple vu plus haut. Voici l’ensemble de données représentant les températures de certains objets d’une pièce : {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si on les classe dans l’ordre croissant, cela donne : {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
-
Calculez la médiane de l’échantillon. La médiane s’obtient en trouvant la donnée qui partage en deux parts égales l’échantillon : la moitié des valeurs est avant cette médiane, l’autre moitié est après, c’est un peu comme le « milieu » de la distribution. Si cette dernière contient un nombre impair de valeurs (taille impaire), c’est facile : vous prenez la valeur qui a autant de valeur avant elle qu’après. Si la distribution compte un nombre pair de valeurs (taille paire), pas de panique ! Vous prenez les 2 valeurs du milieu et vous en faites la moyenne. On donne à cette valeur médiane l’appellation Q2 ; en effet, elle situe entre Q1 et Q2, respectivement les quartiles inférieur et supérieur de la distribution, mais nous verrons cela plus tard !
- Revenons sur le cas d’une distribution avec un nombre impair de valeurs. Pas d’affolement ! il se peut qu’en calculant la médiane comme on vous l’a indiqué (moyenne des deux valeurs centrales), vous tombiez sur une valeur qui n’est pas dans la distribution : c’est normal ! De même, si les deux valeurs centrales sont identiques, la médiane sera cette valeur : c’est normal aussi !
- Dans notre exemple, il y a 12 valeurs (distribution de taille paire). Les deux termes centraux sont donc en position 6 et 7, soit respectivement les valeurs 70 et 71. La médiane de cette série est donc la moyenne des deux : (70 + 71) / 2 = 70,5 .
-
Calculez le quartile inférieur. Cette valeur, traditionnellement appelée Q1, est la valeur en dessous de laquelle on a 25 % des valeurs (et 75 % en dessus). Dit autrement, c’est la médiane de la première moitié de la distribution. Si dans cette moitié, vous avez un nombre impair de valeurs, procédez exactement comme précédemment (moyenne des 2 valeurs centrales) et vous trouverez Q1.
- Dans notre exemple, il y a 6 valeurs en dessous de la médiane Q2 et 6 au-dessus. Donc, pour trouver le quartile inférieur, on prend les 2 valeurs en position 3 et 4, c’est-à-dire 70 et 70 On en fait la moyenne : (70 + 70) / 2 = 70 . Q1 a pour valeur 70 !
-
Calculez le quartile supérieur. Cette valeur, traditionnellement appelée Q3, est la valeur en dessous de laquelle on a 75 % des valeurs (et 25 % en dessus). Pour calculer Q3, on s’y prend exactement de la même façon que pour Q1, sauf qu’on utilise la seconde moitié (au-dessus de Q2) de la distribution.
- Si on poursuit avec notre exemple, les deux valeurs centrales sont 71 et 72. La moyenne s’établit ainsi : (71 + 72) / 2 = 71,5 . Q3 a pour valeur 71,5 !
-
Trouvez alors l’écart interquartile, appelé encore étendue interquartile. Q1 et Q3 ont été définis, on calcule la distance entre les deux. On soustrait Q1 de Q3. La valeur que vous obtenez est déterminante pour fixer les limites des données non aberrantes de la distribution.
- Dans notre exemple, Q1 = 70 et Q3 = 71,5. Pour l’écart interquartile, on fait : Q3 - Q1 = 71,5 - 70 = 1,5 .
- Ceci marche même si Q1, Q3 ou les deux sont des nombres négatifs. Par exemple, si Q1 valait -70, l’écart interquartile serait de : 71,5 - (-70) = 141,5. C’est la bonne réponse !
-
Trouvez les « limites intérieures » de la distribution. Une donnée est dite aberrante quand elle se trouve en dehors de certaines limites. Il y en a de deux types : les limites intérieures (sorte d’intervalle de confiance minimal) et les extérieures (sorte d’intervalle de confiance maximal). Si une donnée se trouve à l’extérieur des limites intérieures, on la considère comme une donnée aberrante mineure . Si elle se trouve à l’extérieur des limites extérieures, on la considère comme une donnée aberrante majeure . Le calcul des limites intérieures s’opère en multipliant l’écart interquartile par 1,5. On ajoute ce résultat à Q3 et on le soustrait à Q1. Ces deux nouvelles valeurs sont les limites intérieures de votre série statistique.
- Dans notre exemple, l’écart interquartile est de : (71,5 - 70), soit 1,5. On multiplie cet écart par 1,5, ce qui donne 2,25. On ajoute ce résultat à Q3 et on le soustrait à Q1 pour obtenir les limites intérieures, ce qui donne ici :
- 71,5 + 2,25 = 73,75
- 70 - 2,25 = 67,75
- Au final, les limites intérieures sont donc 67,75 et 73,75
- Dans notre distribution, seule la température du four (300 °F) se trouve largement en dehors de ces bornes, c’est une donnée aberrante modérée. On n’en a pas fini : il faut maintenant voir si cette température est une donnée aberrante majeure. On ne peut pas encore tirer de conclusion définitive !
- Dans notre exemple, l’écart interquartile est de : (71,5 - 70), soit 1,5. On multiplie cet écart par 1,5, ce qui donne 2,25. On ajoute ce résultat à Q3 et on le soustrait à Q1 pour obtenir les limites intérieures, ce qui donne ici :
-
Trouvez les « limites extérieures » de la distribution. On opère de la même façon que pour les limites intérieures, sauf que l’écart interquartile est multiplié par 3 et non par 1,5. On ajoute ce résultat à Q3 et on le soustrait à Q1 pour obtenir les deux limites extérieures.
- Dans notre exemple, multipliez l’écart interquartile par 3 (1, 5 x 3 = 4,5). Les deux limites extérieures se calculent comme précédemment :
- 71,5 + 4,5 = 76
- 70 - 4,5 = 65,5
- Les deux limites extérieures sont donc 65,5 et 76
- Toute valeur qui se trouve à l’extérieur de l’intervalle maximal est qualifiée de donnée aberrante majeure. Dans notre exemple, la température du four, 300 degrés, se trouve largement en dehors des limites extérieures. Cette donnée est définitivement une valeur aberrante majeure.
- Dans notre exemple, multipliez l’écart interquartile par 3 (1, 5 x 3 = 4,5). Les deux limites extérieures se calculent comme précédemment :
-
À ce stade, il convient de faire intervenir un critère particulier : il faut évaluer qualitativement les données aberrantes pour voir si elles doivent être « jetées aux orties ». Avec le procédé vu précédemment, il est donc possible de classer une valeur de la série dans une des trois catégories : soit c’est une donnée « normale », soit une donnée aberrante mineure soit une donnée aberrante majeure. Mais attention ! les choses ne sont pas aussi simples, certes vous avez, par exemple, identifié une donnée aberrante. Elle est susceptible d’être écartée, mais ce n’est pas pour autant qu’elle le sera ! En effet, il faut, en plus, trouver la raison pour laquelle cette valeur diffère grandement des autres. Et c’est cette raison qui va déterminer si oui ou non, la valeur sera écartée ! En général, les données aberrantes attribuées à ce genre d’erreurs, erreur de mesure, d’enregistrement, erreur de montage de l’expérience, pour ne citer qu’elles, sont écartées. Par contre, les données aberrantes qu’on ne peut attribuer à une erreur, quelle qu’elle soit et qui recèlent en elles une nouvelle information, une nouvelle tendance, ces valeurs-là ne sont pas écartées .
- Il est un autre critère à prendre à compte : les données aberrantes modifient-elles significativement la moyenne de la série, dans un sens qui fausserait les analyses ultérieures ? Ainsi, si vous comptez tirer des conclusions importantes à partir de la seule moyenne, il vous faut vérifier deux fois plutôt qu’une la présence de données réellement aberrantes.
- Essayons de cerner notre problème. Comme il est hautement
improbable que le four ait atteint une température de 300 °F naturellement, force est de conclure que ce four a été laissé allumé accidentellement. Cette température étant compatible avec celle d’un four allumé. Donc, si on conserve la valeur aberrante, la moyenne s’établit comme suit : (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 degrés, alors que la moyenne, au cas où on écarterait
la donnée aberrante, s’établirait comme suit : (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55.
- Comme on en a conclu qu’il y a eu erreur humaine (four laissé allumé) et que la température moyenne de la pièce, 90 °F, n’est pas crédible, on peut dire que 300 est une donnée aberrante et qu’à ce titre, elle se doit d’être écartée
-
Comprenez bien que, parfois, il faut retenir la ou les données aberrantes. Si dans certains cas, il est évident qu’il faille les écarter parce qu’elles résultent d’erreurs ou qu’elles entrainent des résultats faussés, certaines autres données aberrantes doivent, quant à elles, être gardées. Ainsi, si vous avez une donnée aberrante dont vous savez sans doute possible qu’elle ne résulte pas d’une erreur ou qu’elle met en lumière un phénomène que vous soupçonniez, cette valeur-là ne doit en aucun cas être mise de côté, si aberrante soit-elle ! Les essais scientifiques sont particulièrement sujets à ce genre de données aberrantes, écarter ces données aboutirait à supprimer des données essentielles liées non pas à une erreur, mais à une nouvelle tendance ou une nouvelle découverte.
- Par exemple, on veut mesurer l’impact de produits pour faire grossir les poissons d’une ferme piscicole. Reprenons notre série précédente ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}). Cette fois, chacune des valeurs représente le poids (en grammes) d’un poisson ayant absorbé ce produit depuis sa naissance. Un premier produit a donné un poisson de 71 grammes, le second a donné un poisson de 70 grammes, etc. Dans ce cas de figure, 300 est effectivement une importante donnée aberrante, mais nous ne pouvons pas l’écarter, partant du constat que ce n’est pas une erreur : ça veut simplement dire que ce produit-là a eu des effets extrêmement spectaculaires. Dans cet exemple très précis, la valeur 300 est la plus importante et non la moins significative.
Publicité
Conseil
- Si vous tombez sur des données aberrantes, essayez de comprendre d’où elles viennent avant de les écarter définitivement. Ce peut être soit des erreurs de mesure soit des mesures anormales.
Éléments nécessaires
- Une calculatrice