PDF download Télécharger l'article PDF download Télécharger l'article

Le coefficient de corrélation, noté conventionnellement , permet de mesurer l’intensité et le sens de la relation qui existe entre deux séries de variables. Il est toujours compris entre -1 (corrélation négative) et +1 (corrélation positive). Si le coefficient de corrélation est proche de 1, les séries évoluent dans le même sens, s’il est proche de -1, elles évoluent en sens opposé. Il arrive aussi qu’elles ne soient pas liées et donc totalement indépendantes l’une de l’autre : c’est lorsque le coefficient est aux alentours de 0. Son calcul est plus ou moins facile, il peut se faire à la main, en programmant une calculatrice ou encore plus simple, en utilisant une calculatrice spécifique en ligne.

Méthode 1
Méthode 1 sur 4:

Calculer un coefficient de corrélation à la main

PDF download Télécharger l'article
  1. Vous devez d’abord bien organiser vos paires de données. Elles sont, pour des raisons de lisibilité, généralement placées dans un tableau, soit vertical soit horizontal. Donnez un nom chacune des colonnes ou des rangées.
    • Prenons l’exemple de quatre paires de données ( x , y ) qui pourraient être présentées ainsi :
      • x || y
      • 1||1
      • 2||3
      • 4||5
      • 5||7
  2. Pour y parvenir, vous allez additionner tous les x et diviser par le nombre de valeurs de x .
    • Dans notre tableau, nous avons 4 valeurs de x . Pour obtenir la moyenne de la série, additionnez toutes les valeurs de x , puis divisez par 4. Les calculs se présentent ainsi :
  3. Pour l’obtenir, vous allez additionner toutes les valeurs y et diviser par le nombre de valeurs (l’effectif) de y .
    • Dans notre tableau, nous avons également 4 valeurs de y . Faites la somme de toutes ces valeurs, puis divisez par 4. Le calcul se présente ainsi :
  4. Une fois la moyenne calculée, vous pouvez calculer l’écart type. Pour cela, il y a une formule qu’il faut retenir :
    • Avec les données du problème, la formule est la suivante :
  5. Cette valeur statistique est essentielle pour aller plus loin. Vous utiliserez la même formule que pour les valeurs de x .
    • Dans notre exemple, cela donne donc les calculs suivants :
  6. Pour le calculer, vous allez avoir besoin des moyennes des deux variables, de leurs écarts types et de l’effectif de l’échantillon que l’on appellera n . Le coefficient de corrélation est traditionnellement représenté par la lettre grecque (rhô). Nous utiliserons ici la formule dite « de Pearson ». Elle se présente comme suit :
    • ,
    • selon le pays, la notation change. En France, encore que ce ne soit pas une généralité pour tous les éditeurs d’exercices, on utilise et , ailleurs, on préfère écrire et . Il existe d’autres formules de calcul de ce coefficient, mais le résultat est fort heureusement identique.
  7. À ce stade, vous avez vos deux moyennes et vos deux écarts types. Dans la formule, n représente l’effectif de l’échantillon qui n’a pas besoin d’être calculé, puisqu’il suffit de compter (sans se tromper s’il y en a beaucoup) le nombre de valeurs d’une des deux variables.
    • Reprenons notre exemple. Vous avez toutes les données, il ne vous reste plus qu’à faire l’application numérique en faisant attention et dans le remplacement et dans les calculs :
    • [
      ]
  8. Dans notre exemple, nous aboutissons à un coefficient de corrélation de 0,988 qui nous révèle deux choses : il est positif et a une certaine valeur, légèrement inférieure à 1. Ces deux caractéristiques sont importantes.
    • Le coefficient de corrélation étant ici positif, vous pouvez en conclure qu’il y a une corrélation positive entre les deux variables ( x et y ). En clair, cela signifie que si x augmente, y augmente également.
    • Le coefficient de corrélation, disions-nous, est proche de +1, vous pouvez en conclure que les deux variables sont très étroitement corrélées. Si vous faisiez un graphe, vous verriez que tous les points de coordonnées (x, y) formeraient presque une ligne droite.
    Publicité
Méthode 2
Méthode 2 sur 4:

Calculer un coefficient de corrélation en ligne

PDF download Télécharger l'article
  1. La corrélation entre variables diverses est le lot quasi quotidien des statisticiens, comme les financiers, par exemple. Vous comprenez bien que devant des dizaines, voire des centaines de calculs, ils ne s’amusent pas à faire ces calculs répétitifs à la main : ils utilisent des calculatrices, souvent en ligne. Souvent aussi, ils ont affaire à des distributions de centaines de valeurs et utilisent divers coefficients de corrélation. Pour notre propos, tapez dans la barre de recherche d’un moteur Internet la requête suivante : « calculatrice coefficient corrélation Pearson ».
  2. Lisez attentivement les instructions du site sur la façon d’entrer les données. Il est de toute première importance de taper correctement vos données, sans quoi vous allez obtenir une réponse fausse et donc une interprétation tout aussi erronée. Selon les sites, le renseignement des données varie, mais c’est généralement simple, il faut juste faire attention.
    • Rendez-vous sur ce site . Certes, il est en anglais, mais est très simple d’utilisation. Le premier champ horizontal accueillera votre première variable ( x ), le second, en dessous, la seconde ( y ). Chaque valeur sera séparée de la suivante par une virgule (sans espace), sauf à la fin. Si vous reprenez notre exemple, vous taperez dans le premier champ : 1, 3, 5, 7.
    • Sur cet autre site , vous entrez les valeurs de la première variable dans le champ de gauche, et celles de la seconde dans celui de droite. Vous pouvez même importer vos valeurs depuis un classeur Excel . Tout est expliqué.
  3. Ces sites sont bien pratiques, puisqu’ils ont été programmés pour faire les calculs à votre place. Une fois les données entrées, il ne vous reste plus qu’à cliquer sur le bouton Calculer et le résultat apparaitra automatiquement.
    Publicité
Méthode 3
Méthode 3 sur 4:

Calculer un coefficient de corrélation avec une calculatrice

PDF download Télécharger l'article
  1. Avant tout calcul, il faut entrer dans la machine les données, c’est-à-dire vos distributions. Commencez par sélectionner la fonction Edit [1] .
    • Pour ce calcul, chaque calculatrice a ses propres exigences, mais les différences sont minimes. L’explication qui suit est valable pour la calculatrice de Texas Instruments , la TI-86 .
    • Activez les fonctions statistiques en appuyant sur la touche 2nd , puis sur Stat (au-dessus de la touche + ). Enfin, appuyez sur la touche F2 et choisissez Edit .
  2. La plupart des calculatrices gardent en mémoire les données d’un calcul précédent. Afin que vos calculs soient justes, il faut les effacer avant de rentrer les vôtres  [2] .
    • À l’aide des flèches de navigation, déplacez le curseur sur la rubrique xStat , appuyez sur Clear , puis sur Enter . La colonne des x devrait être vide.
    • Toujours à l’aide des flèches de navigation, déplacez le curseur sur la rubrique yStat , appuyez sur Clear , puis sur Enter . La colonne des y redevient vierge.
  3. À l’aide des flèches, placez le curseur sur la première ligne de la colonne xStat . Tapez votre première valeur, puis validez avec Enter . Au bas de l’écran, vous verrez la notification de votre entrée sous la forme xStat(1)=__ , l’espace vide étant remplacé par la valeur dernièrement entrée. Quand vous validez l’entrée, le tableau se remplit de vos données et le curseur passe sur la ligne suivante. En même temps, au bas de l’écran, s’affiche xStat(2)=__ [3] .
    • Entrez ainsi toutes les valeurs de la première variable ( x ).
    • Une fois toutes les valeurs de x entrées, servez-vous des flèches de navigation pour remplir la colonne des y , appelée yStat .
    • Une fois toutes les données entrées, vous n’avez plus qu’à sortir de la fonction en appuyant sur la touche Exit , l’écran est alors vidé, mais vos données, bien entendu, conservées.
  4. Le coefficient de corrélation mesure l’écart à une droite de régression linéaire. L’avantage de la calculatrice est qu’elle établit très vite l’équation de la droite de régression et calcule tout aussi vite le coefficient de corrélation  [4] .
    • Entrez dans la fonction Stat , puis appuyez sur la touche Calc . Sur la TI-86 , vous devez faire 2nd Stat F1 .
    • Optez pour les calculs de régression linéaire. Sur une ‘‘TI-86’‘, vous devez appuyer sur la touche F3 , la mention LinR y est indiquée. Apparaitra alors à l’écran, la mention LinR _, le curseur étant clignotant.
    • Vous devez à présent entrer les noms des deux variables qui vont être comparées : nous les appellerons xStat et yStat .
      • Sur votre TI-86 , sélectionnez la liste des noms en appuyant sur la séquence 2nd List F3 .
      • Sur la ligne au bas de l’écran, vous verrez les variables disponibles. Choisissez xStat en appuyant sur F1 ou F2 , tapez une virgule, puis appuyez sur yStat .
      • Validez avec la touche Enter pour lancer les calculs.
  5. Quand vous validez, la calculatrice calcule et affiche immédiatement un certain nombre de valeurs calculées  [5] .
    •  : l’équation théorique de régression apparait sur la première ligne de réponses, mais elle est présentée sous la forme , ce qui ne change rien.
    • est l’ordonnée à l’origine de la droite de régression linéaire, celle obtenue quand x = 0.
    • est la pente de la droite de régression linéaire.
    • est le coefficient de corrélation.
    • représente l’effectif des paires de données utilisées lors des calculs.
    Publicité
Méthode 4
Méthode 4 sur 4:

Reviser quelques notions de régression linéaire

PDF download Télécharger l'article
  1. Étudier la corrélation entre deux variables, aléatoires ou non, revient à étudier l’intensité de la liaison existante entre elles. Le coefficient de corrélation est donc un chiffre compris entre -1 et +1. Plus il proche de 0, moins les variables sont corrélées et un coefficient négatif indique une corrélation inverse de deux variables  [6] .
    • Ainsi, si vous décidez d’étudier la corrélation qu’il y a, dans un groupe d’enfants de moins de 12 ans, entre leurs âges et leurs tailles, vous imaginez facilement que la corrélation est très forte. En effet, dans cette tranche d’âge, pratiquement tous les enfants grandissent dans les mêmes proportions et à la même vitesse.
    • Comme exemple de corrélation négative, on pourrait, par exemple, comparer le nombre d’heures passées par un golfeur à s’entrainer et ses résultats (PAR). Plus il s’entraine, moins il a besoin de coups pour faire un parcours de 18 trous.
    • Enfin, si vous comparez la pointure des chaussures d’un groupe de personnes et leurs chances de décrocher un diplôme universitaire, il y a de très grandes chances pour que la corrélation soit nulle ou presque.
  2. La moyenne arithmétique d’une série de valeurs s’obtient en les additionnant toutes et les divisant par l’effectif de la série. Pour pouvoir calculer un coefficient de corrélation, vous aurez besoin de faire la moyenne de chacune des séries de données  [7] .
    • Par convention, la moyenne d’une variable s’écrit avec le nom codifié de la variable surmontée d’une barre (X̅, lisez X barre ). Souvent aussi, la moyenne est appelée par la lettre grecque μ (mu). Comme il y a au minimum deux variables et donc deux moyennes, on les précise en indiquant en indice la variable : , parfois .
    • Prenons un échantillon de 6 données d’une variable x donnée : 1, 2, 5, 6, 9, 10. La moyenne des valeurs de x ( ) s’établit comme suit :
  3. En mathématiques, l’écart type mesure la dispersion des valeurs d’une série statistique par rapport à la moyenne de ces valeurs. Plus cet écart est important, plus la dispersion est importante, moins significative est la moyenne et c’est exactement l’inverse quand l’écart est faible  [8] .
    • Par convention, l’écart type est représenté par la lettre grecque minuscule (sigma), à laquelle on ajoute en indice le nom de la variable : l’écart type des données x s’écrit .
  4. Les sommes sont fréquentes dans les formules mathématiques et comme toute opération, la sommation a une identification sous la forme de la lettre grecque majuscule sigma : ∑.
    • Prenons comme exemple la série statistique des valeurs de x  : (1,2, 5,6, 9,10). La somme des x s’écrit :
    Publicité

Conseils

  • Le coefficient de corrélation est parfois appelé « coefficient de corrélation produit-moment de Pearson », il a été mis au point par le mathématicien britannique Karl Pearson.
  • Tout coefficient de corrélation supérieur à 0,8 ou inférieur à -0,8 indique une forte corrélation des deux séries. À l’inverse, tout coefficient inférieur à 0,5 ou supérieur à -0,5 démontre la faible corrélation des séries comparées.
Publicité

Avertissements

  • Une corrélation forte montre simplement que deux critères sont étroitement liés, mais n’attribuez pas à un coefficient ce qu’il ne lui appartient pas. Ainsi, s’il vous arrivait de comparer, à l’aide d’un échantillon de personnes, leurs tailles et leurs pointures, il y a de grandes chances que vous trouviez entre les deux critères une forte corrélation : les personnes de haute taille ont souvent de grands pieds. Cependant, cela ne veut pas dire que si vous grandissez, vous aurez forcément de grands pieds, de même ce n’est pas parce que vos pieds vont grandir que votre taille va faire de même. Vous le voyez, un coefficient de corrélation reste une constante et ne saurait passer pour un facteur de cause à effet.
Publicité

À propos de ce wikiHow

Cette page a été consultée 78 281 fois.

Cet article vous a-t-il été utile ?

Publicité