Un test d'hypothèse (ou test statistique) est effectué par analyse statistique. La signification statistique est un aspect du test d'hypothèse et peut être calculée à l'aide d'une valeur p, indiquant la probabilité des résultats d'une étude, à condition qu'une certaine déclaration (l'hypothèse nulle) soit vraie [1] X Source de recherche . Si la valeur p est inférieure au seuil de signification préalablement défini (généralement 0,05), le chercheur peut rejeter l'hypothèse nulle et tenir compte de l'hypothèse alternative. À l'aide d'un test t (test de Student) simple, il est possible de trouver la valeur p et de déterminer la signification entre deux ensembles de données différents.
Étapes
-
Définissez votre hypothèse. Avant de pouvoir évaluer la signification statistique, il est indispensable de définir une question qui oriente votre recherche et de formuler une hypothèse. Une hypothèse statistique est une déclaration qui répond à la question de votre recherche et qui prend en considération les données issues de votre expérience et les différences que vous pouvez enregistrer. Pour toute expérience, une hypothèse nulle et une autre alternative doivent être formulées [2] X Source de recherche . De façon générale, on compare deux groupes pour savoir s'ils sont identiques ou pas.
- L'hypothèse nulle (H 0 ) suppose habituellement qu'il n'y a pas de différence entre deux ensembles de données. À titre d'exemple, supposons que les élèves qui lisent leurs cours avant de venir en classe n'obtiennent pas de meilleures notes aux examens.
- L'hypothèse alternative (H a ) est une déclaration contraire à l'hypothèse nulle et vous devriez vous appuyer sur cette hypothèse avec les données dont vous disposez. Par exemple, vous pouvez dire que les élèves qui lisent leurs cours avant de venir en classe obtiennent de meilleures notes aux examens.
-
Définissez le niveau de signification. Le niveau de signification permet de déterminer dans quelle mesure les données seront uniques de sorte qu'elles soient considérées comme étant significatives. Pour déterminer la validité des résultats obtenus lors d'un test statistique, il est important de définir un seuil de signification (alpha). Si la valeur p est inférieure ou bien égale au seuil de signification défini, vos données sont considérées comme étant statistiquement significatives [3] X Source de recherche .
- Généralement, alpha est fixé à 0,05. Autrement dit, la probabilité que l'on observe fortuitement des différences dans les données est seulement de 5 %.
- Si vous définissez un niveau de confiance plus élevé (la valeur p est plus faible), vos résultats seront considérés comme étant plus significatifs.
- Si vous souhaitez augmenter le niveau de confiance de vos données, réduisez la valeur de p à 0,01. Habituellement, on utilise des valeurs p encore plus faibles dans l'industrie manufacturière pour détecter les défauts des produits. Un degré de confiance élevé est essentiel pour s'assurer que chaque pièce produite fonctionne comme il se doit.
- Généralement pour les expériences de test d'hypothèse, un seuil de signification de 0,05 est jugé acceptable.
-
Décidez d'utiliser un test unilatéral ou bilatéral. L'une des hypothèses utilisées lors d'un test t est que vos données sont normalement distribuées. Les données normalement distribuées formeront une courbe de Gauss, avec la plupart des données au centre de la courbe [4] X Source de recherche . Le test de Student ou test t est utilisé pour voir si les données se trouvent en dehors de la distribution normale, soit au-dessus ou en dessous, dans les queues de distribution.
- Le test unilatéral est plus puissant que le bilatéral, car il examine la relation dans une seule direction (par exemple supérieur au groupe témoin)), alors qu'un test bilatéral examine le potentiel d'une relation dans les deux sens (par exemple inférieur et supérieur au groupe témoin).
- Utilisez un test bilatéral si vous n'êtes pas certain si vos données sont inférieures ou supérieures au groupe témoin. Vous pourrez ainsi évaluer la signification statistique dans n'importe quelle direction.
- Par contre, si vous connaissez l'évolution de la tendance de vos données, utilisez un test unilatéral. En utilisant l'exemple précédent, vous vous attendez à ce que les notes des élèves augmentent. Pour cette raison, vous devez utiliser un test unilatéral.
-
Déterminez la taille de l'échantillon par analyse de puissance. On appelle puissance d'un test la probabilité que l'observe un résultat escompté, en raison d'une taille d'échantillon donné [5] X Source de recherche . Le seuil commun pour la puissance (β) est de 80 %. L'analyse de puissance peut être difficile à effectuer sans données préliminaires, car vous aurez besoin d'informations sur la valeur moyenne approximative de chaque ensemble de données et son écart-type. Il existe des calculateurs en ligne qui peuvent vous aider à déterminer la taille d'échantillon idéale pour vos données [6] X Source de recherche .
- Généralement, on réalise une simple étude pilote pour affiner les analyses de puissance et déterminer la taille de l'échantillon idéale pour pouvoir mener une étude approfondie et plus vaste.
- Si vous ne disposez pas de moyens pour mener une étude pilote complexe, établissez des évaluations en vous basant sur d'autres documents et d'autres recherches déjà entreprises. Cette méthode vous fournira des informations afin de déterminer la taille d'échantillon dont vous avez besoin.
Publicité
-
Utilisez la formule pour calculer l'écart-type. L'écart-type est une mesure de la dispersion de vos données et elle indique le degré de similarité entre les points de données dans l'échantillon. À première vue, la formule pour calculer l'écart-type semble compliquée, mais les étapes ci-dessous vous guideront dans le procédé de calcul. La formule est la suivante : s = √∑((x i – µ) 2 /(N – 1)).
- s est l'écart-type.
- ∑ signifie que vous devez faire la somme de toutes les valeurs d'échantillon recueillies.
- x i représente chacune des valeurs de vos données.
- µ est la moyenne des données pour chaque groupe.
- N représente le nombre total d'échantillons.
-
Calculez la moyenne des échantillons de chaque groupe. Pour commencer, calculez la moyenne des échantillons dans chaque ensemble de données. La moyenne est représentée par la 12e lettre de l'alphabet grec mu ou µ. Pour la calculer, faites la somme de chaque échantillon et divisez ensuite le résultat par le nombre total d'échantillons [7] X Source de recherche .
- Par exemple, essayons de trouver la note moyenne des élèves qui ont lu leurs cours avant de venir en classe. Par souci de simplicité, utilisons les 5 notes suivantes : 90, 85, 91, 94 et 83.
- Additionnez ces données : 90 + 85 + 91 + 94 + 83 = 443.
- Divisez la somme par le nombre d'échantillons, N = 5 : 443 / 5 = 88,6.
- La note moyenne de ce groupe est de 88,6.
-
Soustrayez chaque donnée de la moyenne. La deuxième étape consiste à résoudre cette partie x i – µ de l'équation. Soustrayez toute donnée d'échantillon de la valeur moyenne calculée. Pour revenir à l'exemple précédent, vous devez effectuer cinq soustractions.
- (90 – 88,6), (85 – 88,6), (91 - 88,6), (94 – 88,6) et (83 – 88,6).
- Les valeurs obtenues sont 1,4 ; -3,6 ; 2,4 ; 5,4 et -5,6.
-
Élevez chacun de ces nombres au carré et additionnez-les. Élevez au carré toutes les valeurs que vous venez de calculer. Cela vous aidera à faire disparaitre le signe (-). Si vous obtenez des nombres négatifs après cette étape ou après tout le calcul, c'est peut-être parce que vous avez oublié d'élever au carré les nombres.
- Dans l'exemple précédent, nous avons obtenu les valeurs suivantes : 1,96, 12,96, 5,76, 29,16 et 31,36.
- Faites la somme de toutes ces valeurs : 1,96 + 12,96 + 5,76 + 29,16 + 31,36 = 81,2.
-
Divisez le résultat obtenu par le nombre d'échantillons, moins 1. On divise la formule par N – 1 parce que cela compense le fait qu'il est impossible de considérer toute une population. De plus, pour réaliser une estimation, vous avez pris un échantillon de la population de tous les élèves [8] X Source de recherche .
- Faites donc la soustraction : N - 1 = 5 - 1 = 4
- Divisez le résultat précédemment obtenu par le résultat issu de la soustraction : 81,2 / 4 = 20,3.
-
Essayez d'extraire la racine carrée du résultat. À présent, calculez la racine carrée du nombre issu des opérations précédentes. Il s'agit de la dernière étape pour calculer l'écart-type. Il existe des programmes de statistique qui calculent directement l'écart-type après que vous ayez entré les données brutes.
- Pour le même exemple, l'écart-type des notes des élèves qui lisent leurs cours avant de venir en classe est s = √20,3 = 4,51.
Publicité
-
Calculez la variance des deux groupes d'échantillons. Jusqu'à présent, notre exemple n'a porté que sur un seul des deux groupes. Si vous voulez comparer deux groupes de votre échantillon, vous devriez avoir les données. Calculez l'écart-type du second groupe et utilisez le résultat pour trouver la variance entre les deux groupes. La formule de la variance est la suivante : s d = √((s 1 /N 1 ) + (s 2 /N 2 )) [9] X Source de recherche .
- s d est la variance entre les deux groupes.
- s 1 est l'écart-type du groupe 1 et N 1 est le nombre d'échantillons de groupe 1.
- s 2 est l'écart-type du groupe 2 et N 2 le nombre d'échantillons du groupe 2.
- Pour notre exemple, supposons que le groupe 2 (étudiants n'ayant pas lu les cours) était composé de 5 élèves avec un écart-type de 5,81. La variance est la suivante :
- s d = √((s 1 ) 2 /N 1 ) + ((s 2 ) 2 /N 2 ))
- s d = √(((4,51) 2 /5) + ((5,81) 2 /5)) = √((20,34 / 5) + (33,76 / 5)) = √(4,07 + 6,75) = √10,82 = 3,29.
-
Calculez le score t de vos données. Ce calcul vous permettra de convertir vos données sous une forme qui vous aidera à les comparer avec d'autres données. Le score t vous permet d'effectuer un test de Student pour déterminer dans quelle mesure la probabilité de deux groupes de données comparés diffère significativement. La formule pour calculer le score t est la suivante t = (µ 1 – µ 2 )/s d . [10] X Source de recherche .
- µ 1 est la moyenne du premier groupe.
- µ 2 représente la moyenne du deuxième groupe.
- s d est la variance entre les deux échantillons.
- Utilisez une moyenne plus grande que µ 1 pour ne pas obtenir une valeur t négative.
- Par exemple, la valeur moyenne du groupe 2 (élèves qui ne lisent pas leurs cours) est de 80. Par conséquent, t = (µ 1 – µ 2 )/s d = (88,6 – 80) / 3,29 = 2,61.
-
Déterminez le degré de liberté de l'échantillon. Lorsque vous utilisez le score t, le degré de liberté est déterminé par la taille de votre échantillon. Additionnez le nombre total d'échantillons que comprend chaque groupe, puis enlevez 2. Pour notre exemple, le degré de liberté (d.f.) est de 8 parce que le 1er groupe comprend 5 échantillons, tout comme le 2e groupe ((5 + 5) - 2 = 8).
-
Utilisez un tableau pour évaluer la signification. Vous pouvez trouver dans les livres de statistiques ou sur Internet des tableaux qui fournissent des valeurs de score t [11] X Source de recherche avec des degrés de liberté. Regardez la ligne qui indique les degrés de liberté de vos données, puis trouvez la valeur p correspondante pour le score t dérivé de votre calcul.
- Avec des degrés de liberté de 8 d.f. et un score t de 2,61, la valeur p pour le test unilatéral est comprise entre 0,01 et 0,025. Puisque le seuil de signification est inférieur ou égal à 0,05, les données utilisées sont considérées comme étant statistiquement significatives. Ainsi, nous pouvons rejeter l'hypothèse nulle et accepter l'hypothèse alternative [12] X Source de recherche . Le groupe d'élèves qui lisent leurs cours obtient de meilleures notes aux examens.
-
Envisagez une étude de suivi. Beaucoup de chercheurs réalisent une étude pilote simple en utilisant quelques mesures pour essayer de comprendre comment mener une plus vaste étude. Faites une autre étude, avec plus de mesures pour accroitre les niveaux de confiance dans vos conclusions.
- Une étude de suivi peut vous aider à déterminer si vos conclusions contiennent une erreur de type I (en observant une différence où il n'y en a pas ou un faux rejet de l'hypothèse nulle) ou une erreur de type II (l'échec d'observer une différence quand il y en a une ou une fausse acceptation de l'hypothèse nulle).
Publicité
Conseils
- La statistique est un domaine d'étude vaste et complexe. Si vous voulez comprendre la signification statistique, essayez de suivre un cours sur l'inférence statistique au lycée ou à l'université.
Avertissements
- L'analyse statistique s'applique spécifiquement au test de Student pour vérifier les différences entre deux populations présentant une distribution normale. Il faudra peut-être utiliser un autre test en fonction de la complexité des données que vous avez.
Références
- ↑ http://blog.minitab.com/blog/adventures-in-statistics/how-to-correctly-interpret-p-values
- ↑ https://statistics.laerd.com/statistical-guides/hypothesis-testing-3.php
- ↑ http://www.stat.yale.edu/Courses/1997-98/101/sigtest.htm
- ↑ https://web.csulb.edu/~msaintg/ppa696/696stsig.htm#INTERPRET THE Chi
- ↑ http://www.jeremymiles.co.uk/misc/power/
- ↑ http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-1-Sided
- ↑ https://www.mathsisfun.com/data/standard-deviation-formulas.html
- ↑ https://www.mathsisfun.com/data/standard-deviation-formulas.html
- ↑ http://archive.bio.ed.ac.uk/jdeacon/statistics/tress4a.html