Comprendre la méthodologie scientifique pour analyser des données.
Maîtriser les tests statistiques pour valider des hypothèses.
Explorer la régression linéaire pour modéliser des relations.
Découvrir et appliquer l’analyse de variance (ANOVA).
Mettre en pratique avec un TP sur des données réelles.
Enjeux
Les statistiques permettent :
De quantifier les relations et les incertitudes.
De vérifier la validité des conclusions.
D’éviter les biais et erreurs d’interprétation.
Structure du cours
Introduction
Tests d’hypothèse
Régressions et ANOVA
TP
Introduction
Problème initial
Comment valider une hypothèse (cf cours précédents) basée sur des données ?
Exemple introductif
Effet d’un médicament sur la tension artérielle.
{style=“width: 65%”}
Exemple introductif
Effet d’un médicament sur la tension artérielle.
{style=“width: 65%”}
Méthodologie scientifique
L’approche hypothético-déductive
{style=“width: 65%”}
Hypothèse nulle et alternative : Concepts clés
: Hypothèse nulle
Représente le statu quo ou l’absence d’effet.
Ex : “Le traitement n’a aucun effet sur la santé.”
: Hypothèse alternative
Propose un changement ou un effet significatif.
Ex : “Le traitement améliore la santé.”
Rôles distincts de et
: Le point de départ
Ce qu’on cherche à rejeter.
Rejeter signifie qu’il y a des preuves en faveur de .
: L’hypothèse à démontrer
Acceptée si les données rejettent avec une signifiance statistique.
Exemple : Étude sur un médicament
Question
Le médicament X améliore-t-il la pression artérielle ?
: “Le médicament X n’a aucun effet sur la pression artérielle.”
: “Le médicament X réduit significativement la pression artérielle.”
Test statistique et rôle de
On effectue un test statistique pour évaluer les données.
Si les résultats sont significatifs, on rejette :
Le médicament X a un effet.
Si les résultats ne sont pas significatifs, on ne rejette pas :
Aucune preuve suffisante pour dire que le médicament est efficace.
Types d’hypothèses alternatives
1. Unilatérale (une direction)
: “Le traitement augmente les performances.”
2. Bilatérale (deux directions)
: “Le traitement a un effet (augmentation ou diminution).”
Points clés
Toujours formuler les hypothèses avant de collecter les données.
Rejeter signifie qu’il y a un soutien pour , mais cela ne prouve pas .
Risques d’erreur
Erreur de Type I () : Faux positif
Rejeter alors qu’elle est vraie.
Impact : Conclure à tort qu’un effet ou une différence existe.
Exemple : Le médicament semble efficace alors qu’il ne l’est pas.
Erreur de Type II () : Faux négatif
Ne pas rejeter alors qu’elle est fausse.
Impact : Manquer un effet ou une différence existante.
Exemple : Conclure que le vaccin n’est pas efficace alors qu’il l’est.
Lien entre () et ()
Réduire () augmente souvent (), et inversement.
Augmenter la taille de l’échantillon réduit les deux.
Applications
Fixer () à 0,05 (courant).
Puissance statistique ( 1 - ) : Indicateur clé pour minimiser les faux négatifs.
Intervalle de confiance
Définition
Intervalle de confiance (IC) : Une plage de valeurs dans laquelle un paramètre inconnu (e.g., moyenne, proportion) a une probabilité donnée de se trouver.
Interprétation
Un IC à 95 % signifie :
“Si l’on répète l’expérience de nombreuses fois, 95 % des IC calculés contiendront le vrai paramètre.”
Attention : Ce n’est pas une probabilité sur un seul IC !
note: L’IC est une mesure de précision de l’estimation.Plus l’IC est étroit, plus l’estimation est précise. L’IC dépend de la variabilité des données et de la taille de l’échantillon. Exemple : IC de 95 % pour une moyenne de 10 ± 2. Attention : L’IC ne donne pas la probabilité que la vraie moyenne soit dans l’intervalle. Interprétation : “Avec un IC de 95 %, on peut dire que cet intervalle a été calculé de manière à être fiable dans 95 % des cas pour inclure la vraie moyenne.”
Calcul
Formule générale :
La marge d’erreur dépend de :
La variabilité des données (écart-type, variance).
La taille de l’échantillon (plus l’échantillon est grand, plus l’IC est étroit).
Le niveau de confiance (souvent 95 % ou 99 %).
Applications
Comprendre la précision d’une estimation.
Comparer des groupes ou des traitements :
Si deux IC ne se chevauchent pas, il est probable que les paramètres diffèrent significativement.
Tests d’Hypothèse
Introduction aux tests
Objectif : Fournir un cadre statistique pour prendre des décisions à partir des données.
Principe : Tester si les données observées sont cohérentes avec une hypothèse initiale ().
Définition
Test d’hypothèse : Procédure statistique visant à vérifier si une hypothèse () est compatible avec les données observées.
Hypothèses en jeu :
(hypothèse nulle) : Pas de différence ou d’effet.
(hypothèse alternative) : Il y a une différence ou un effet.
Processus général
Formulation des hypothèses :
: Hypothèse par défaut (ex. “pas de différence entre deux groupes”).
: Hypothèse que l’on souhaite tester (ex. “il y a une différence entre deux groupes”).
Choix d’un test statistique :
Dépend de la nature des données et des hypothèses (t-test, ANOVA, etc.).
Calcul de la statistique de test :
Une valeur numérique basée sur les données, qui reflète la compatibilité avec .
Interprétation de la p-value :
La probabilité d’obtenir des données aussi extrêmes ou plus extrêmes que celles observées, si est vraie.
Décision :
Rejeter ou ne pas rejeter en fonction de la p-value et du seuil fixé ().
Tests d’Hypothèse
Conditions d’application
Pourquoi vérifier les conditions ?
Les tests statistiques reposent sur des hypothèses spécifiques concernant les données.
Si ces conditions ne sont pas respectées :
Les résultats peuvent être biaisés.
Les conclusions tirées des p-values et autres statistiques peuvent être incorrectes.
Conditions communes
1. Normalité
Définition : Les données (ou les résidus) doivent suivre une distribution normale.
Tests concernés : t-test, ANOVA, régression linéaire, etc.
Comment vérifier ?
Visualisation : Histogramme ou test de normalité (Shapiro-Wilk, Kolmogorov-Smirnov).
Transformation possible si les données ne sont pas normales (log, racine carrée).
Alternative : Si la normalité n’est pas respectée, utiliser des tests non paramétriques (ex. Mann-Whitney, Kruskal-Wallis).
2. Indépendance
Définition : Les observations doivent être indépendantes les unes des autres.
Exemple :
Chaque individu dans une étude représente une observation distincte.
Pas de lien direct entre les mesures (ex. pas d’effet de répétition).
Conséquences si non respectée :
Risque de sous-estimer la variabilité réelle.
Biais dans les conclusions.
Solutions :
Échantillonnage aléatoire.
Si les données sont dépendantes : Utiliser des modèles spécifiques (ex. tests appariés, modèles mixtes).
3. Homogénéité des variances
Définition : La variance des données doit être similaire entre les groupes comparés.
Tests concernés :
ANOVA, t-test pour échantillons indépendants.
Comment vérifier ?
Test de Levene ou de Bartlett.
Visualisation des variances.
Alternative :
Utiliser des tests robustes ou des ajustements (ex. t-test de Welch pour variances inégales).
4. Taille de l’échantillon
Pourquoi ?
Les petits échantillons augmentent la probabilité d’erreurs de Type II ().
Les grands échantillons peuvent amplifier des différences insignifiantes.
Recommandations :
Calculer la taille d’échantillon nécessaire (analyse de puissance).
Interpréter les résultats en tenant compte de la taille de l’échantillon.
Notes importantes
Si les conditions ne sont pas respectées :
Les tests paramétriques peuvent donner des résultats peu fiables.
Les tests non paramétriques (ex. Wilcoxon, Kruskal-Wallis) sont souvent une alternative robuste.
Toujours combiner des tests formels (statistiques) avec des inspections visuelles.
Tests d’Hypothèse
Choix du test
Paramétriques vs Non paramétriques
Tests paramétriques
Définition : Tests qui supposent que les données suivent une distribution spécifique (souvent normale).
Avantages :
Plus puissants si les conditions sont respectées.
Permettent des analyses supplémentaires comme les intervalles de confiance ou les tailles d’effet.
Inconvénients :
Sensibles aux violations des hypothèses (ex. normalité, homogénéité des variances).
Peu robustes aux valeurs aberrantes.
Tests non paramétriques
Définition : Tests qui ne nécessitent pas d’hypothèse forte sur la distribution des données.
Avantages :
Robustes aux violations des conditions (pas besoin de normalité).
Adaptés aux échelles ordinales ou lorsque les données contiennent des valeurs aberrantes.
Inconvénients :
Moins puissants que les tests paramétriques lorsque les conditions des tests paramétriques sont remplies.
Plus difficiles à interpréter (pas de taille d’effet directement comparable).
Quand utiliser chaque type de test ?
Critère
Paramétrique
Non paramétrique
Distribution des données
Normale ou transformable
Non normale ou inconnue
Échelle de mesure
Intervalle ou ratio
Ordinale ou intervalle non fiable
Échantillons petits (< 30)
Avec prudence, vérifier normalité
Recommandé
Présence de valeurs aberrantes
Problématique
Peu d’impact
Notes importantes
Toujours vérifier les conditions avant de choisir le test.
Si les conditions des tests paramétriques sont partiellement respectées :
Considérez des transformations de données (ex. log, racine carrée).
Utilisez des tests robustes (ex. t-test de Welch pour variances inégales).
Les tests non paramétriques sont une excellente alternative, mais il faut noter leur perte de puissance relative.
Statistique du test
Définition
Une valeur numérique calculée à partir des données pour mesurer l’écart entre :
une estimation () (basée sur l’échantillon)
et une valeur hypothétique () (sous l’hypothèse nulle, ).
Objectif
Quantifier si l’écart observé est suffisamment grand pour rejeter .
Formule générale
: Estimation basée sur les données (moyenne, proportion, etc.).
: Valeur hypothétique sous .
Erreur standard : Quantifie la variabilité attendue de si est vraie.
Interprétation
La statistique du test mesure l’écart relatif entre l’estimation et la valeur attendue sous en tenant compte de la variabilité des données.
Valeur standardisée :
Une valeur proche de 0 indique que est compatible avec .
Une valeur élevée (positive ou négative) indique un écart important, potentiellement significatif.
Exemple : t-test pour une moyenne
Hypothèse nulle :
Statistique du test :
: Moyenne de l’échantillon.
: Moyenne sous .
: Écart-type de l’échantillon.
: Taille de l’échantillon.
Contexte
Question : Le poids moyen des adultes dans une région est-il de 70 kg ?
Données :
Taille de l’échantillon () : 50
Moyenne observée () : 72 kg
Écart-type () : 8 kg
Hypothèses
Hypothèse nulle () : (le poids moyen est de 70 kg).
Hypothèse alternative () : (le poids moyen est différent de 70 kg).
Calcul de la statistique de test
Seuil de décision
p-value et seuil : Concepts clés
: Niveau de signification prédéfini.
La probabilité maximale de rejeter alors qu’elle est vraie (erreur de type I).
Valeur typique : .
-value : Probabilité d’obtenir un résultat aussi extrême (ou plus) que celui observé, sous l’hypothèse .
Interprétation de la p-value
Si :
Rejeter .
Les données fournissent des preuves significatives contre .
Si :
Ne pas rejeter .
Les données ne fournissent pas suffisamment de preuves pour rejeter .
Retour au cas pratique
Représentation visuelle
{style=“width: 65%”}
Distribution t : Distribution de probabilité théorique de la statistique t sous .
note: La distribution t est utilisée dans les tests statistiques pour des échantillons de petite taille ou lorsque la variance de la population n’est pas connue. Elle est une approximation de la loi normale, mais avec des queues plus épaisses, ce qui permet de mieux gérer l’incertitude liée aux petits échantillons. Forme : Elle est symétrique et centrée sur 0, tout comme une courbe normale.Paramètre clé : Le nombre de degrés de liberté (dfdf), qui influence l’épaisseur des queues : Plus df est grand, plus la distribution t ressemble à une loi normale. Pour df→∞, elle converge vers une courbe normale standard.
Seuil critique pour
Test bilatéral avec .
Degrés de liberté () : .
Valeur critique (table de Student) : .
Représentation visuelle
{style=“width: 65%”}
Régions de rejet : Les zones représentent les régions critiques définies par .
Comparaison
Statistique de test : .
Seuil critique : .
Conclusion :
n’est pas dans la région de rejet.
On ne rejette pas .
Représentation visuelle
{style=“width: 65%”}
Statistique calculée
Interprétation avec p-value
Calcul de la -value :
(test bilatéral).
Avec et , .
Comparaison avec :
.
On ne rejette pas .
Représentation visuelle
{style=“width: 65%”}
-value : Elle indique la probabilité associée à la statistique calculée.
Conclusion
Les données ne fournissent pas suffisamment de preuves pour conclure que le poids moyen est différent de 70 kg.
Interprétation : L’écart observé peut être dû au hasard.
Points clés à retenir
est le seuil fixé a priori pour décider de rejeter ou non .
Une -value plus faible que indique des preuves contre mais ne prouve pas .
Ne pas confondre significativité statistique et importance pratique.
Erreurs courantes
Tests multiples : Problème
Situation : Plusieurs tests statistiques sont réalisés sur le même jeu de données.
Risque : Chaque test a une probabilité (souvent 5%) de produire une erreur de type I (faux positif).
Conséquence : La probabilité cumulative d’obtenir au moins un faux positif augmente avec le nombre de tests.
Exemple de tests multiples
Cas : Étudier l’effet d’un médicament sur 20 variables (par exemple, taux sanguins de 20 molécules).
Hypothèse nulle : Le médicament n’a aucun effet sur ces variables.
Résultat attendu :
Avec , en moyenne test donnera un faux positif par hasard.
Conclusion erronée : Un effet pourrait être attribué au médicament alors qu’il est dû au hasard.
Correction des tests multiples
Solutions pour réduire l’impact :
Correction de Bonferroni :
Diviser par le nombre de tests (é).
Limite : Très conservatif, peut réduire la puissance du test.
Faux taux de découverte (FDR) :
Contrôle la proportion de faux positifs parmi les tests rejetés.
Méthode de Benjamini-Hochberg.
-hacking : Problème
Définition : Manipuler l’analyse statistique ou les données pour obtenir des résultats significatifs.
Méthodes courantes :
Tester plusieurs hypothèses et ne rapporter que les résultats significatifs.
Ajuster les analyses ou exclure des données pour atteindre .
Réaliser des tests intermédiaires jusqu’à obtenir un résultat significatif.
Exemple de -hacking
Étude clinique : Tester l’effet d’un médicament.
Données brutes : Pas de résultat significatif ().
Manipulation :
Supprimer certains participants (par exemple, ceux avec des valeurs extrêmes).
Recalculer les résultats ().
Problème : Le résultat est artificiellement significatif.
Conséquences du -hacking
Faux positifs : Accepter des hypothèses fausses.
Biais de publication : Les résultats non significatifs sont souvent ignorés, créant un biais dans la littérature scientifique.
Perte de confiance : Réduire la crédibilité des études.
Solutions pour éviter le -hacking
Pratiques transparentes :
Pré-enregistrer les hypothèses et la méthodologie (preregistration).
Analyser toutes les données, même les résultats non significatifs.
Rapporter les tests multiples et ajuster .
Alternatives aux -values :
Utiliser des intervalles de confiance ou des approches bayésiennes pour évaluer les résultats.
Points clés à retenir
Les tests multiples augmentent le risque de faux positifs.
Le -hacking manipule les analyses pour obtenir des résultats significatifs.
Des pratiques transparentes et des corrections statistiques réduisent ces risques.
Tests d’Hypothèse
Tests paramétriques
Définition
Méthodes statistiques basées sur des hypothèses concernant la distribution des données (souvent normale).
Objectif
Tester des hypothèses sur les paramètres d’une population (par ex. la moyenne).
Hypothèses
Les données suivent une loi normale
Les échantillons sont indépendants
Variance homogène entre les groupes (selon le test)
Test t : Comparer une moyenne à une référence
Conditions
Données suivant une loi normale.
Formule (rappel)
où :
: Moyenne de l’échantillon.
: Valeur hypothétique pour la moyenne (selon ).
: Erreur standard de la moyenne .
{style=“width: 100%”}
Exemple : Test t pour une moyenne
Question
Un fabricant de bouteilles affirme que le volume moyen est de 1L. Les consommateurs veulent vérifier cette affirmation.
Données
Taille de l’échantillon () : 30.
Moyenne observée () : 1.02 L.
Écart-type () : 0.05 L.
Hypothèse nulle : L.
Calcul
Conclusion
Comparaison avec pour et :
.
> .
Résultat : Rejeter . Le volume moyen semble supérieur à 1L.
Test t pour deux groupes : Comparaison des moyennes
Types
Groupes indépendants :
Compare les moyennes de deux échantillons indépendants.
Exemple : Efficacité de deux médicaments différents.
Groupes appariés :
Compare des moyennes de données appariées (avant/après).
Exemple : Poids avant et après un régime.
Hypothèses
Nulle () : Les moyennes des groupes sont égales ().
Alternative () : Les moyennes sont différentes ().
Formules pour deux groupes
Groupes indépendants :
Groupes appariés :
où est la moyenne des différences et l’erreur standard des différences.
Retour sur l’exemple introductif
Effet d’un médicament sur la tension artérielle.
{style=“width: 65%”}
Résultats
Moyennes et écarts-types
Moyenne placebo : .
Moyenne traitement : .
Écart-type placebo : .
Écart-type traitement : .
Calcul de t
Seuil critique
Niveau de signification : .
.
.
Conclusion
Rejeter : Le traitement réduit significativement la pression artérielle.
Exemple de tests appairés
Contexte de l’étude
Objectif : Évaluer l’effet d’un programme de réduction du stress sur la pression artérielle.
Deux moments de mesure : Avant et Après le programme.
Question : Le programme réduit-il significativement la pression artérielle ?
Visualisation des données
{style=“width: 70%”}
Chaque participant est relié pour montrer l’évolution individuelle.
Hypothèses
: Pas de différence moyenne ().
: Différence moyenne non nulle ().
Distribution des différences
Histogramme des différences (Avant - Après).
Moyenne des différences : -10 mmHg.
{style=“width: 50%”}
Boxplots avec connexions
Comparaison synthétique des distributions Avant et Après.
Lignes montrant les différences individuelles.
{style=“width: 50%”}
Points clés
Le test t apparié analyse des différences entre deux mesures liées.
Résultats : Réduction significative de la pression artérielle après le programme.
Résultats
Statistique :
Seuil critique : .
Décision : Rejet de , réduction significative.
Points clés à retenir
Les tests t sont puissants pour comparer des moyennes.
Ils nécessitent des hypothèses spécifiques (normalité, homogénéité).
Bien choisir entre groupes indépendants et appariés.
Synthèse
flowchart TD
A@{ shape: f-circ } --> B{Un ou deux groupes ?}
B -- Un groupe --> E[Test t pour un échantillon]
B -- Deux groupes --> F{Données appariées ?}
F -- Oui (appariées) --> I[Test t apparié]
F -- Non (indépendants) --> J[Test t pour deux échantillons indépendants]
O@{ shape: comment, label: ["**Condition :** Les données suivent une loi **normale**"]}
ANOVA (Analysis of Variance)
Objectif
Comparer les moyennes de plusieurs groupes (plus de 2).
Question clé : Les différences observées entre les groupes sont-elles dues au hasard ?
Hypothèses
: Les moyennes des groupes sont égales.
Exemple : Les 3 traitements ont le même effet ().
: Au moins une moyenne diffère.
Concept clé : Variabilité
L’ANOVA décompose la variabilité totale en deux sources :
Variabilité entre les groupes : Différences dues au facteur étudié (traitements, conditions…).
Variabilité à l’intérieur des groupes : Variabilité due au hasard (erreur expérimentale).
Partition des variances
Formule générale :
SSTO : Sum of Squares Total (somme des carrés totaux) Variabilité totale
SSR : Sum of Squares for Regression (somme des carrés expliqués) Variabilité entre groupes
SSE : Sum of Squares for Error (somme des carrés des erreurs) Variabilité à l’intérieur des groupes
Statistique F
La statistique F mesure le rapport entre la variance expliquée et la variance non expliquée :
Moyenne des carrées expliqués :
Moyenne des carrés des erreurs :
Interprétation de F
Si est grand, cela indique que la variabilité entre les groupes est significativement plus grande que celle à l’intérieur des groupes.
Décision :
Comparer calculé à (table de Fisher).
Si , rejeter .
Résultats attendus
Si :
Rejeter .
Conclure qu’au moins un groupe diffère des autres.
Si :
Ne pas rejeter .
Les différences observées sont probablement dues au hasard.
Conditions d’application de l’ANOVA
Normalité : Les données dans chaque groupe suivent une loi normale.
Homogénéité des variances : Variances similaires entre les groupes.
Indépendance : Les observations dans chaque groupe sont indépendantes.
Limites de l’ANOVA
Ne permet pas de savoir quel groupe diffère des autres.
Nécessite des tests post-hoc pour identifier les différences spécifiques.
TODO : Ajouter graphique d’illustration et ensuite les posthoc
Corrélation de Pearson
Relation linéaire entre deux variables quantitatives.
Définition
La corrélation de Pearson mesure la force et la direction de la relation linéaire entre deux variables quantitatives.
Formule
où :
: Valeurs des variables et .
: Moyennes des variables et .
Interprétation
: Relation positive (les deux variables augmentent ensemble).
: Relation négative (une variable diminue lorsque l’autre augmente).
: Pas de relation linéaire.
Valeur absolue de :
: Relation forte.
: Relation faible.
Hypothèses
Les données suivent une relation linéaire.
Les variables et suivent une distribution normale.
Pas de valeurs aberrantes importantes.
Exemple
Contexte : Relation entre le temps d’étude (heures) et la note obtenue (sur 20).
{style=“width: 60%”}
Limites
Ne détecte que les relations linéaires.
Sensible aux valeurs aberrantes.
N’implique pas de causalité.
Tests d’Hypothèse
Tests Non Paramétriques
Définition
Les tests non paramétriques ne nécessitent aucune hypothèse sur la distribution des données.
La plupart du temps repose sur les rangs des données plutôt que sur les valeurs brutes.
Idéal pour :
Données ne suivant pas une loi normale.
Échantillons de petite taille.
Données ordinales ou contenant des valeurs aberrantes.
Avantages et Inconvénients
Avantages :
Robustes aux violations des hypothèses (ex. normalité, homogénéité des variances).
Adaptés à des échelles ordinales.
Inconvénients :
Moins puissants que les tests paramétriques si les hypothèses de ceux-ci sont respectées.
Plus difficiles à interpréter (pas de taille d’effet directement comparable).
Test de Wilcoxon
Définition
Le test de Wilcoxon est utilisé pour comparer des échantillons appariés lorsque la condition de normalité n’est pas respectée.
Contexte
Données appariées : Mesures avant/après ou sur les mêmes sujets.
Exemple : Comparer la pression artérielle avant et après un traitement.
Hypothèses
: La différence médiane entre les paires est égale à zéro (pas de changement).
: La différence médiane entre les paires est différente de zéro (changement significatif).
Fonctionnement
Calculer la différence entre les deux observations pour chaque paire.
Trier les différences absolues et attribuer des rangs.
Affecter un signe (+ ou -) à chaque rang en fonction de la différence initiale.
Calculer la statistique de Wilcoxon (somme des rangs positifs ou négatifs).
Formule
où :
Les rangs sont attribués aux différences absolues ().
Les différences nulles () sont ignorées.
Exemple Pratique
Contexte : Tester l’effet d’un programme de réduction du stress sur la pression artérielle.
Données :
Avant :
Après :
Différences :
è
Rangs des différences absolues :
Signe des rangs :
.
Statistique :
.
Comparaison avec le seuil critique
Seuil critique (table de Wilcoxon, , ) : .
Conclusion : Rejeter , la pression artérielle a significativement diminué.
Points Clés
Le test de Wilcoxon est une alternative non paramétrique au t-test apparié.
Il évalue la médiane des différences plutôt que les moyennes.
Idéal pour des petits échantillons ou des données avec des valeurs aberrantes.
Limites
Ne fonctionne pas si les données appariées sont fortement dépendantes d’une relation non linéaire.
Ignore les valeurs nulles dans les différences.
Mann-Whitney
Définition
Le test de Mann-Whitney est une alternative non paramétrique au t-test pour comparer les positions centrales de deux groupes indépendants.
Contexte
Utilisé lorsque la distribution des données n’est pas normale ou contient des valeurs aberrantes.
Compare les positions des distributions des deux groupes.
Ne nécessite pas d’hypothèse sur la variance ou la forme de la distribution.
Fonctionnement
Fusion des données :
Mélanger les valeurs des deux groupes et les trier par ordre croissant.
Attribuer des rangs :
Assigner un rang à chaque valeur dans l’ensemble trié.
Somme des rangs par groupe :
Calculer la somme des rangs pour chaque groupe (, ).
Statistique de test :
Utiliser la somme des rangs pour calculer la statistique :
où est la plus petite des deux valeurs (, ).
Exemple
Contexte : Comparer les temps de réponse entre deux groupes soumis à des stimuli différents.
Données :
Groupe A :
Groupe B :
Étapes :
Fusionner les valeurs et trier : .
Attribuer des rangs : .
Sommes des rangs :
Groupe A : .
Groupe B : .
Statistique :
.
.
.
Comparaison avec le seuil critique
Pour , , et (bilatéral), seuil critique .
.
Conclusion : On ne rejette pas . Pas de différence significative entre les groupes.
Points Clés
Le test de Mann-Whitney est idéal pour des petits échantillons ou des données non normales.
Il compare les positions des distributions et non les moyennes.
Insensible aux valeurs extrêmes.
Limites
Ne fonctionne pas bien si les distributions ont des formes différentes.
Hypothèse implicite : Les distributions des groupes doivent avoir une forme similaire (même dispersion).
Kruskal-Wallis
Définition
Le test de Kruskal-Wallis est une alternative non paramétrique à l’ANOVA pour comparer les positions de plusieurs groupes (>2).
Contexte
Utilisé lorsque les données ne suivent pas une loi normale ou présentent des valeurs aberrantes.
Compare la position centrale (médiane) des groupes.
Ne nécessite pas l’hypothèse d’homogénéité des variances.
Fonctionnement
Fusionner les données de tous les groupes et les trier par ordre croissant.
Attribuer des rangs à chaque valeur dans l’ensemble trié.
Calculer la somme des rangs pour chaque groupe ().
Calculer la statistique de test :
où :
: Nombre total d’observations.
: Nombre de groupes.
: Taille du groupe .
: Somme des rangs du groupe .
Points Clés
Le test de Kruskal-Wallis est utile pour des données non normales ou ordinales.
Il évalue les différences de position centrale (médianes) entre les groupes.
Si significatif, un test post-hoc est nécessaire pour identifier les groupes qui diffèrent.
Limites
Ne fonctionne pas bien si les distributions des groupes ont des formes ou des dispersions différentes.
Plus puissant pour les petits échantillons, mais moins puissant que l’ANOVA si les hypothèses de normalité sont respectées.
Tests Post-Hoc
Si le test est significatif, utilisez des tests comme :
Dunn : Comparaisons par paires avec ajustement des p-values.
Conover : Comparaisons de rangs entre groupes.
Test χ²
Définition
Le test est utilisé pour vérifier l’indépendance entre deux variables qualitatives.
Contexte
Évaluer si une relation statistique existe entre deux variables qualitatives.
Les données sont présentées sous forme d’un tableau de contingence.
Fonctionnement
Tableau observé () :
Présenter les données sous forme de fréquences observées.
Tableau attendu () :
Calculer les fréquences attendues si les variables étaient indépendantes :
Statistique :
où :
: Nombre de lignes.
: Nombre de colonnes.
: Fréquence observée pour la cellule .
: Fréquence attendue pour la cellule .
Points Clés
Le test est une méthode puissante pour analyser des relations entre variables qualitatives.
Il nécessite des effectifs suffisants (chaque cellule pour des résultats fiables).
Si est significatif, une relation existe, mais cela ne prouve pas une causalité.
Limites
Sensible à des effectifs faibles ou à des tailles de cellule déséquilibrées.
Ne convient pas aux données ordonnées ou quantitatives.
Tests de normalité
Kolmogorov-Smirnov, Shapiro-Wilk.
Définition
Les tests de normalité permettent de vérifier si un ensemble de données suit une distribution normale.
Contexte
Les tests statistiques paramétriques (ex. t-test, ANOVA) reposent sur l’hypothèse de normalité.