PDF download Télécharger l'article PDF download Télécharger l'article

La covariance est en statistiques une valeur qui permet de connaitre dans quelle mesure les variables d'une série statistique double évoluent ensemble. Comme exemple concret, prenons un anthropologue qui se proposerait d'étudier la relation entre la taille et le poids d'individus appartenant à une même communauté. Chaque individu se voit alors doté d'une paire de données, sa taille et son poids, qu'on notera sous la forme d'une paire (x,y). En prenant tous les individus et en utilisant la formule de calcul de la covariance, ce scientifique va peut-être pouvoir établir un lien entre taille et poids. Il est possible de calculer la covariance de trois façons différentes, une plus manuelle et les deux autres plus automatiques. Dans cet article, nous parlons de la covariance échantillonnale.

Méthode 1
Méthode 1 sur 4:

Calculer la covariance à la main

PDF download Télécharger l'article
  1. Il y a en effet deux formules de calcul, l'une pour les populations de taille , l'autre pour les échantillons aléatoires de taille . La première de ces formules est :
    , tandis que la seconde est :
    . Nous n'évoquerons ici que cette dernière formule. Il vous faut bien comprendre ce qui compose une telle formule qui contient des variables et des symboles  [1] .
    •  : il s'agit de la lettre grecque « sigma ». En mathématiques, c'est le symbole utilisé pour une sommation. Quand ce signe apparait, tout ce qui le suit doit être additionné, de jusqu'à [2] .
    •  : cette expression se lit « x indice i » ou simplement « x i ». Ce « i » représente en fait le nombre total de variables dans votre série statistique. Il agit comme un compteur et vous devrez faire le calcul demandé avec toutes les valeurs de la série.
    •  : cette expression est par contre une valeur fixe, puisqu'elle est la moyenne de tous les de votre série de données. Cette moyenne se présente parfois sous la forme d'un surmonté d'un trait. Cette expression se lit « x barre », mais la signification reste la même, c'est la moyenne des .
    •  : cette expression se lit « y indice i ». Ce « i » représente en fait le nombre total de variables dans votre série statistique. Il agit comme un compteur et vous devrez faire le calcul demandé avec toutes les valeurs de la série.
    •  : cette expression est par contre une valeur fixe, puisqu'elle est la moyenne de tous les de vos données. Cette moyenne se présente parfois sous la forme d'un surmonté d'un trait. Cette expression se lit « y barre », mais la signification reste la même, c'est la moyenne des .
    •  : c'est l'effectif de l'échantillon, pris aléatoirement dans une série plus vaste. Il est composé de paires de valeurs et . L'effectif est le nombre de ces paires, non le nombre de et de .
  2. Avant de se lancer dans les calculs, le mieux est de faire un tableau qui va grouper et les paires et les différents calculs. Faites un tableau à cinq colonnes référencées.
    • La colonne contiendra toutes vos valeurs de .
    • La colonne contiendra toutes vos valeurs de . Faites attention à bien mettre sur la même ligne le et le d'une même paire. Pour le calcul de la covariance, l'ordre des données et des paires a toute son importance.
    • La colonne sera au départ vide. Vous ne pourrez la remplir que lorsque vous aurez calculé la moyenne des .
    • La colonne sera, elle aussi, vide. Vous ne pourrez la remplir que lorsque vous aurez calculé la moyenne des .
    • La colonne sera également vide. Vous la remplirez au fur et à mesure.
  3. Cette série statistique contient 9 paires, donc 9 . Pour trouver la moyenne des , il faut tous les additionner et diviser ce résultat par 9. La somme des se présente comme suit :
    1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Une fois que vous avez divisé par 9, vous avez votre moyenne des  : . C'est cette valeur que vous allez prendre pour vos différents calculs de corrélation  [3] .
  4. Comme précédemment pour les , cette série statistique contient 9 paires, donc 9 . On procèdera donc de la même façon pour trouver la moyenne des . La somme des se présente comme suit :
    8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Une fois que vous avez divisé par 9, vous avez votre moyenne des  : . C'est cette valeur que vous allez prendre pour vos différents calculs de corrélation  [4] .
  5. Remplissez la colonne . Pour chaque paire, vous allez devoir effectuer ce calcul qui consiste en la soustraction de la valeur moyenne des de chacune des valeurs . Dans l'exemple, vous devrez retrancher 4,89 de chacune des valeurs de . Si , alors le résultat sera négatif, sinon positif. Il n'est pas illogique que cette valeur soit négative  [5] .
    • Admettons que le de la première paire soit 1 (colonne des ), vous indiquerez dans la colonne , sur la ligne du en question le résultat de : 1 - 4,89, soit -3,89.
    • Recommencez avec chaque de la série. La seconde ligne contiendra : 3 - 4,89, soit -1,89, tandis que la troisième contiendra : 2 - 4,89, soit -2,89. Continuez ainsi pour tous les de la série. À l'arrivée, votre colonne contiendra les valeurs suivantes : -3,89 ; -1,89 ; -2,89 ; 0,11 ; 3,11 ; 2,11 ; 7,11 ; -2,89 ; -0,89.
  6. Remplissez la colonne . Pour chaque paire, vous allez faire la même chose qu'avec les , mais avec les et la moyenne des . Si , alors le résultat sera négatif, sinon positif. Pour cette valeur, il n'est pas plus illogique que cette valeur soit négative  [6] .
    • Si l’on prend la valeur de la première paire, on va avoir dans la colonne
      le résultat suivant : 8 - 5,44, soit 2,56.
    • Sur la seconde ligne, vous inscrirez le résultat suivant : 6 - 5,44, soit 0,56.
    • Continuez ainsi pour tous les de la série. À l'arrivée, votre colonne contiendra les valeurs suivantes : 2,56 ; 0,56 ; 3,56 ; -1,44 ; -2,44 ; -2,44 ; -3,44 ; 1,56 ; 1,56.
  7. Cette dernière colonne est le produit des deux colonnes précédentes, celles intitulées et que vous avez déjà obtenues par calcul. L'opération n'est pas très compliquée, il faut juste prendre garde de multiplier les deux bonnes valeurs situées sur chaque ligne. Faites également attention avec la multiplication des valeurs négatives  [7] .
    • Reprenons notre exemple, sur la première ligne, vaut -3,89 et fait apparaitre une valeur de 2,56. Multipliez les deux et vous obtenez : -3,89 x 2,56 = -9,96. « - » par « + » donne « - ».
    • Sur la seconde ligne, vous avez -1,88 et 0,56, vous les multipliez (-1,88 x 0,56) et vous obtenez -1,06.
    • Continuez ainsi jusqu'à la fin de la série statistique Si vous n'avez pas fait d'erreurs, vous devez avoir : -9,96 ; -1,06 ; -10,29 ; -0,16 ; -7,59 ; -5,15 ; -24,46 ; -4,51 ; -1,39.
  8. C'est donc une somme que nous noterons sous le symbole Σ. Toutes vos colonnes sont désormais remplies, il ne reste plus qu'a faire la somme des valeurs de la dernière colonne. Dans notre exemple, il y a neuf valeurs à additionner. Ici, il n'y a pas de problème, car toutes les valeurs sont négatives, mais ce n'est pas toujours le cas : faites attention à faire les bonnes opérations.
    • Dans notre exemple, la somme est de -64,57. Inscrivez ce total au bas de la dernière colonne : c'est la valeur qui va être en numérateur dans la formule de calcul classique de la covariance.
  9. À ce stade, vous avez donc le numérateur de la formule, il ne reste plus qu'à trouver le dénominateur, ce qui est très simple, puisqu'il suffit d'ôter 1 à l'effectif de l'échantillon (n-1), c'est-à-dire le nombre de paires moins 1.
    • Dans notre exemple, l'effectif de la série est de 9 (paires), ( ) vaut donc tout logiquement 8 (9 - 1).
  10. La dernière étape du calcul de la covariance consiste à diviser
    , par . Le résultat que vous trouvez est la covariance de vos données  [8] .
    • Dans notre exemple, il faut faire : -64,57/8, ce qui donne - 8,07.
    Publicité
Méthode 2
Méthode 2 sur 4:

Calculer la covariance avec Excel

PDF download Télécharger l'article
  1. Si vous n'avez qu'une seule série statistique ou si vous voulez en comprendre le mécanisme, calculer une covariance à la main est, bien sûr, possible. Dès que vous en avez des dizaines à calculer, la méthode manuelle est quelque peu fastidieuse. Si dans votre métier, vous avez besoin de calculer des covariances, il serait avantageux d'automatiser les calculs. Dans la première partie, vous avez vu que le calcul d'une covariance comporte peut-être beaucoup de calculs, mais ils sont simples. Pour une série de neuf paires, vous avez fait 2 moyennes, 18 soustractions, 9 multiplications, une addition et une division, soit 31 opérations élémentaires. Lors d'un calcul à la main, vous risquez d'oublier un signe, de mal reporter une valeur, ce qui peut entrainer une erreur du résultat final.
  2. Si vous connaissez déjà Excel (ou tout autre tableur), il est très facile de configurer un tableau de calcul de covariance. Commencez par donner un titre aux cinq colonnes du tableau. Ce seront les mêmes que lors du calcul à la main : , , , et [9] .
    • Les entêtes des deux premières colonnes de calcul peuvent être simplifiés en mettant, par exemple, « différence des  » (troisième colonne) et « différence des y » (quatrième colonne), ce sera peut-être plus explicite.
    • Si votre tableau commence dans le coin supérieur gauche, la cellule A1 indiquera que c'est la colonne des , B1, celle des , … jusqu'à E1.
  3. Entrez à la main les valeurs de vos paires respectives dans les colonnes et . Nous vous rappelons que les deux valeurs d'une même paire se mettent sur la même ligne  [10] .
    • La première valeur de est tapée dans la cellule A2, les suivantes le seront en dessous, autant que nécessaire.
    • La première valeur de est tapée dans la cellule B2, les suivantes le seront en dessous, autant que nécessaire.
  4. Trouvez les deux moyennes des et des . Grâce à la fonction de la moyenne, Excel calculera rapidement les moyennes des et des . Dans la cellule qui se trouve sous la dernière ligne, vous entrerez la formule
    =MOYENNE(A2:A___), l'espace laissé vacant correspond à la dernière cellule remplie  [11] .
    • Ainsi, si vous avez 100 valeurs de , vous indiquerez toutes les cellules de A2 à A101, ce qui vous donnera la formule suivante : =MOYENNE(A2:A101).
    • Ce sera la même chose pour les valeurs de et vous aurez la formule suivante :
      =MOYENNE(B2:B101).
    • Comme vous le voyez, il ne faut pas oublier de mettre le signe opératoire « = ».
  5. Entrez la formule de la colonne . Dans la cellule C2, vous devez taper la formule de soustraction entre les et la moyenne des . Elle se présente sous la forme suivante : =A2-____, la partie laissée en banc sera la cellule dans laquelle se trouve la moyenne des [12] .
    • Ainsi, si vous avez 100 données, la moyenne se trouvera dans la cellule A103, et la formule de la cellule C2 sera : =A2-A103.
  6. Entrez la formule de la colonne . Si l’on reprend l'exemple des cent données, la formule de la cellule D2 sera la suivante : =B2-B103  [13] .
  7. Dans la cellule E2 de la cinquième colonne, vous devez taper la formule qui permet la multiplication des valeurs des deux colonnes précédentes, ce qui donne la simple formule suivante :
    =C2*D2  [14] .
  8. Au stade où vous en êtes, vous avez programmé les calculs de la seule première ligne, soit les cellules C2, D2 et E2. Vous allez les copier pour les coller dans le reste du tableau. À l'aide de la souris, sélectionnez ces trois cellules, puis positionnez le curseur de la souris sur l'angle inférieur droit de la cellule le plus à droite. Attendez qu'une petite croix apparaisse. Quand c'est fait, appuyez sur la souris et maintenez-la enfoncée. Sans relâcher la pression, en faisant glisser la souris vers le bas, sélectionnez toutes les cellules qui doivent être remplies avec ces formules. Cette manœuvre va recopier automatiquement les formules des cellules C2, D2 et E2 dans l'ensemble des cellules vides sélectionnées. En une fraction de seconde, votre tableau va faire apparaitre les résultats calculés  [15] .
  9. Pour le calcul de la covariance, vous avez besoin de la somme des produits. Dans la cellule qui se trouve immédiatement sous le dernier produit, tapez la formule suivante :
    =SOMME(E2:E___). La référence de la dernière cellule de cette somme est la référence de la cellule du dernier produit  [16] .
    • Si l'on reprend l'exemple des 100 paires, la formule de la cellule E103 se présentera ainsi : =SOMME(E2:E102).
  10. Vous avez automatisé les calculs intermédiaires, il ne reste plus qu'à programmer le dernier calcul qui vous donnera la covariance. La cellule E103 que vous venez de programmer vient de vous donner le numérateur de la formule de covariance. Immédiatement sous cette cellule, la E104 donc, tapez la formule suivante : =E103/___. La seconde référence de cette formule, le dénominateur en somme, sera remplacée par le nombre de paires de votre échantillon moins un, soit 99 (110 - 1) si l’on reprend notre exemple du début. Le résultat que vous obtenez est la covariance de vos données  [17] .
    Publicité
Méthode 3
Méthode 3 sur 4:

Calculer la covariance avec un calculateur en ligne

PDF download Télécharger l'article
  1. Vous en trouverez plus facilement en anglais qu'en français, mais ce n'est pas un obstacle tant la présentation est simple. Dans n'importe quel moteur de recherche, tapez une requête du genre « calculatrice covariance en ligne ».
  2. Lisez et suivez scrupuleusement les instructions données par le site, chacun a une façon particulière d'entrer les données. Les paires sont ordonnées et donc pour que les calculs soient justes, il faut mettre les valeurs dans l'ordre prévu par les concepteurs du programme de calcul. Vous le verrez, il y a deux ou trois façons d'entrer les données sur les sites, même si l'esprit est en gros le même.
    • Sur ce site , vous trouverez à droite deux champs horizontaux superposés dans lesquels vous pourrez entrer vos valeurs obligatoirement séparées par une virgule. Si vous reprenez l'exemple précédent, vous taperez (ou collerez) la série des suivante : 1, 3, 2, 5, 8, 7, 12, 2, 4, et dans l'espace des , vous mettrez les  : 8, 6, 9, 4, 3, 3, 2, 7, 7.
    • Sur cet autre site , vous devez entrer vos valeurs de dans le cadre de gauche en allant à la ligne après chaque valeur. Faites de même avec les valeurs de dans le cadre de droite. Les valeurs de apparaitront ainsi :
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. Sur ces sites, le plus long est de rentrer les données. Ensuite, il suffit d'appuyer sur le bouton de calcul pour obtenir le résultat recherché. Souvent, ces sites affichent aussi d'autres calculs, comme la taille de la série ou les moyennes des et des .
    Publicité
Méthode 4
Méthode 4 sur 4:

Bien interpréter une covariance

PDF download Télécharger l'article
  1. La covariance est un indicateur statistique qui renseigne sur le degré de corrélation existant entre deux séries statistiques. Nous étions partis d'un exemple avec lequel on essayait de voir le lien éventuel entre taille et poids d'individus. On suppose intuitivement que le poids d'un individu augmente avec sa taille, ce qui explique que la covariance est positive. Prenons un autre exemple, celui d'un joueur de golf pour lequel l’on met en parallèle le nombre d'heures passées et les scores obtenus, étant entendu que plus le score sous le Par est faible, meilleur est le joueur. En supposant que le joueur progresse, on aura aune covariance négative [18] .
    • Reprenons la série statistique que nous avions au départ. On a calculé que sa covariance était de - 8,07, soit négative. Le signe « - » signifie ici que plus augmente, plus diminue (variation en sens inverse) Cela peut être confirmé si vous regardez quelques-unes des paires. Ainsi, on voit que lorsque ou
      , les valeurs de sont 7, 8 et 9. À l'inverse, on voit aussi que pour ou , les valeurs de sont respectivement 3 et 2.
  2. Si une valeur de covariance, quel que soit par ailleurs son signe, positif ou négatif, est élevée, vous pourrez en déduire sans plus de précision que les deux éléments que vous avez mis en parallèle sont fortement corrélés, que ce soit positivement ou négativement  [19] .
    • Dans notre exemple, nous avons trouvé une covariance de - 8,07. Les valeurs s'étendant de 1 à 12, une covariance de 8 est considérée comme élevée. Ce chiffre indique donc une forte corrélation en sens inverse entre les deux séries statistiques.
  3. Si vous obtenez une covariance égale ou proche de 0, vous pourrez seulement conclure que vos deux séries de données sont peu corrélées. Dit autrement, cela peut, par exemple, signifier que si une valeur croît, la valeur qui lui est associée ne croît pas forcément. Les deux valeurs n'ont le plus souvent aucun lien entre elles  [20] .
    • Admettons que vous vouliez étudier la corrélation qu'il y a entre la pointure de chaussures des candidats au baccalauréat et les résultats de ces mêmes candidats. Certes, l'exemple est extrême, mais on soupçonne que la corrélation entre ces deux indicateurs sera proche de 0. Le calcul viendra confirmer certainement qu'il n'y a aucun lien entre les deux, encore faudrait-il le vérifier !
  4. Il est possible de visualiser une covariance en plaçant les points dans un repère cartésien. Si vous le faites, vous allez voir apparaitre un nuage de points. Selon que la covariance est élevée ou non, vous allez pouvoir ou non tracer une ligne courbe qui passe à proximité des points. Si la covariance est négative, cette courbe ira de la partie supérieure gauche à la partie inférieure droite : c'est le cas pour notre exemple avec une covariance de - 8,07. Comme la corrélation est forte entre les deux séries (> 8), on peut constater que les points sont à peu près alignés sur une droite de corrélation.
    • Pour rafraichir vos connaissances sur le placement des points dans un plan orthonormé, lisez cet article.
    Publicité

Avertissements

  • La covariance est peu utilisée en tant que telle en statistiques, elle est finalement un indicateur assez vague de la corrélation. Par contre, elle prend toute sa valeur si elle est jumelée à d'autres calculs, comme les écarts types. Ne tirez pas de conclusions hâtives sur la seule interprétation de la covariance.
Publicité

À propos de ce wikiHow

Cette page a été consultée 199 693 fois.

Cet article vous a-t-il été utile ?

Publicité