Analyse Statistique et Méthodologie Scientifique

Introduction, Théorie et Pratique

Durée : 6 heures

Objectifs du cours

  • Comprendre la méthodologie scientifique pour analyser des données.
  • Maîtriser les tests statistiques pour valider des hypothèses.
  • Explorer la régression linéaire pour modéliser des relations.
  • Découvrir et appliquer l’analyse de variance (ANOVA).
  • Mettre en pratique avec un TP sur des données réelles.

Enjeux

Les statistiques permettent :

  • De quantifier les relations et les incertitudes.
  • De vérifier la validité des conclusions.
  • D’éviter les biais et erreurs d’interprétation.

Structure du cours

  • Introduction
  • Tests d’hypothèse
  • Régressions et ANOVA
  • TP

Introduction

Problème initial

Comment valider une hypothèse (cf cours précédents) basée sur des données ?

Exemple introductif

Effet d’un médicament sur la tension artérielle.

{style=“width: 65%”}

Exemple introductif

Effet d’un médicament sur la tension artérielle.

{style=“width: 65%”}

Méthodologie scientifique

L’approche hypothético-déductive

{style=“width: 65%”}

Hypothèse nulle et alternative : Concepts clés

$H_0$ : Hypothèse nulle

  • Représente le statu quo ou l’absence d’effet.
  • Ex : “Le traitement n’a aucun effet sur la santé.”

$H_1$ : Hypothèse alternative

  • Propose un changement ou un effet significatif.
  • Ex : “Le traitement améliore la santé.”

Rôles distincts de $H_0$ et $H_1$

$H_0$ : Le point de départ

  • Ce qu’on cherche à rejeter.
  • Rejeter $H_0$ signifie qu’il y a des preuves en faveur de $H_1$.

$H_1$ : L’hypothèse à démontrer

  • Acceptée si les données rejettent $H_0$ avec une signifiance statistique.

Exemple : Étude sur un médicament

Question

Le médicament X améliore-t-il la pression artérielle ?

  • $H_0$ : “Le médicament X n’a aucun effet sur la pression artérielle.”
  • $H_1$ : “Le médicament X réduit significativement la pression artérielle.”

Test statistique et rôle de $H_0$

  • On effectue un test statistique pour évaluer les données.
  • Si les résultats sont significatifs, on rejette $H_0$ :
    • Le médicament X a un effet.
  • Si les résultats ne sont pas significatifs, on ne rejette pas $H_0$ :
    • Aucune preuve suffisante pour dire que le médicament est efficace.

Types d’hypothèses alternatives

1. Unilatérale (une direction)

  • $H_1$ : “Le traitement augmente les performances.”

2. Bilatérale (deux directions)

  • $H_1$ : “Le traitement a un effet (augmentation ou diminution).”

Points clés

  • Toujours formuler les hypothèses avant de collecter les données.
  • Rejeter $H_0$ signifie qu’il y a un soutien pour $H_1$, mais cela ne prouve pas $H_1$.

Risques d’erreur

Erreur de Type I ($\alpha$) : Faux positif

  • Rejeter $H_0$ alors qu’elle est vraie.
  • Impact : Conclure à tort qu’un effet ou une différence existe.
  • Exemple : Le médicament semble efficace alors qu’il ne l’est pas.

Erreur de Type II ($\beta$) : Faux négatif

  • Ne pas rejeter $H_0$ alors qu’elle est fausse.
  • Impact : Manquer un effet ou une différence existante.
  • Exemple : Conclure que le vaccin n’est pas efficace alors qu’il l’est.

Lien entre ($\alpha$) et ($\beta$)

  • Réduire ($\alpha$) augmente souvent ($\beta$), et inversement.
  • Augmenter la taille de l’échantillon réduit les deux.

Applications

  • Fixer ($\alpha$) à 0,05 (courant).
  • Puissance statistique ( 1 - $\beta$ ) : Indicateur clé pour minimiser les faux négatifs.

Intervalle de confiance

Définition

  • Intervalle de confiance (IC) : Une plage de valeurs dans laquelle un paramètre inconnu (e.g., moyenne, proportion) a une probabilité donnée de se trouver.

Interprétation

  • Un IC à 95 % signifie :
    • “Si l’on répète l’expérience de nombreuses fois, 95 % des IC calculés contiendront le vrai paramètre.”
    • Attention : Ce n’est pas une probabilité sur un seul IC !

note: L’IC est une mesure de précision de l’estimation.Plus l’IC est étroit, plus l’estimation est précise. L’IC dépend de la variabilité des données et de la taille de l’échantillon. Exemple : IC de 95 % pour une moyenne de 10 ± 2. Attention : L’IC ne donne pas la probabilité que la vraie moyenne soit dans l’intervalle. Interprétation : “Avec un IC de 95 %, on peut dire que cet intervalle a été calculé de manière à être fiable dans 95 % des cas pour inclure la vraie moyenne.”

Calcul

  • Formule générale : $$ IC = \text{Estimation} \pm \text{Marge d’erreur} $$
  • La marge d’erreur dépend de :
    • La variabilité des données (écart-type, variance).
    • La taille de l’échantillon (plus l’échantillon est grand, plus l’IC est étroit).
    • Le niveau de confiance (souvent 95 % ou 99 %).

Applications

  • Comprendre la précision d’une estimation.
  • Comparer des groupes ou des traitements :
    • Si deux IC ne se chevauchent pas, il est probable que les paramètres diffèrent significativement.

Tests d’Hypothèse

Introduction aux tests

  • Objectif : Fournir un cadre statistique pour prendre des décisions à partir des données.
  • Principe : Tester si les données observées sont cohérentes avec une hypothèse initiale ($H_0$).

Définition

  • Test d’hypothèse : Procédure statistique visant à vérifier si une hypothèse ($H_0$) est compatible avec les données observées.
  • Hypothèses en jeu :
    • $H_0$ (hypothèse nulle) : Pas de différence ou d’effet.
    • $H_1$ (hypothèse alternative) : Il y a une différence ou un effet.

Processus général

  1. Formulation des hypothèses :
    • $H_0$ : Hypothèse par défaut (ex. “pas de différence entre deux groupes”).
    • $H_1$ : Hypothèse que l’on souhaite tester (ex. “il y a une différence entre deux groupes”).
  2. Choix d’un test statistique :
    • Dépend de la nature des données et des hypothèses (t-test, ANOVA, etc.).
  1. Calcul de la statistique de test :
    • Une valeur numérique basée sur les données, qui reflète la compatibilité avec $H_0$.
  2. Interprétation de la p-value :
    • La probabilité d’obtenir des données aussi extrêmes ou plus extrêmes que celles observées, si $H_0$ est vraie.
  3. Décision :
    • Rejeter ou ne pas rejeter $H_0$ en fonction de la p-value et du seuil fixé ($\alpha$).

Tests d’Hypothèse

Conditions d’application

Pourquoi vérifier les conditions ?

  • Les tests statistiques reposent sur des hypothèses spécifiques concernant les données.
  • Si ces conditions ne sont pas respectées :
    • Les résultats peuvent être biaisés.
    • Les conclusions tirées des p-values et autres statistiques peuvent être incorrectes.

Conditions communes

1. Normalité

  • Définition : Les données (ou les résidus) doivent suivre une distribution normale.
  • Tests concernés : t-test, ANOVA, régression linéaire, etc.
  • Comment vérifier ?
    • Visualisation : Histogramme ou test de normalité (Shapiro-Wilk, Kolmogorov-Smirnov).
    • Transformation possible si les données ne sont pas normales (log, racine carrée).
  • Alternative : Si la normalité n’est pas respectée, utiliser des tests non paramétriques (ex. Mann-Whitney, Kruskal-Wallis).

2. Indépendance

  • Définition : Les observations doivent être indépendantes les unes des autres.
  • Exemple :
    • Chaque individu dans une étude représente une observation distincte.
    • Pas de lien direct entre les mesures (ex. pas d’effet de répétition).
  • Conséquences si non respectée :
    • Risque de sous-estimer la variabilité réelle.
    • Biais dans les conclusions.
  • Solutions :
    • Échantillonnage aléatoire.
    • Si les données sont dépendantes : Utiliser des modèles spécifiques (ex. tests appariés, modèles mixtes).

3. Homogénéité des variances

  • Définition : La variance des données doit être similaire entre les groupes comparés.
  • Tests concernés :
    • ANOVA, t-test pour échantillons indépendants.
  • Comment vérifier ?
    • Test de Levene ou de Bartlett.
    • Visualisation des variances.
  • Alternative :
    • Utiliser des tests robustes ou des ajustements (ex. t-test de Welch pour variances inégales).

4. Taille de l’échantillon

  • Pourquoi ?
    • Les petits échantillons augmentent la probabilité d’erreurs de Type II ($\beta$).
    • Les grands échantillons peuvent amplifier des différences insignifiantes.
  • Recommandations :
    • Calculer la taille d’échantillon nécessaire (analyse de puissance).
    • Interpréter les résultats en tenant compte de la taille de l’échantillon.

Notes importantes

  • Si les conditions ne sont pas respectées :
    • Les tests paramétriques peuvent donner des résultats peu fiables.
    • Les tests non paramétriques (ex. Wilcoxon, Kruskal-Wallis) sont souvent une alternative robuste.
  • Toujours combiner des tests formels (statistiques) avec des inspections visuelles.

Tests d’Hypothèse

Choix du test

Paramétriques vs Non paramétriques

Tests paramétriques

  • Définition : Tests qui supposent que les données suivent une distribution spécifique (souvent normale).
  • Avantages :
    • Plus puissants si les conditions sont respectées.
    • Permettent des analyses supplémentaires comme les intervalles de confiance ou les tailles d’effet.
  • Inconvénients :
    • Sensibles aux violations des hypothèses (ex. normalité, homogénéité des variances).
    • Peu robustes aux valeurs aberrantes.

Tests non paramétriques

  • Définition : Tests qui ne nécessitent pas d’hypothèse forte sur la distribution des données.
  • Avantages :
    • Robustes aux violations des conditions (pas besoin de normalité).
    • Adaptés aux échelles ordinales ou lorsque les données contiennent des valeurs aberrantes.
  • Inconvénients :
    • Moins puissants que les tests paramétriques lorsque les conditions des tests paramétriques sont remplies.
    • Plus difficiles à interpréter (pas de taille d’effet directement comparable).

Quand utiliser chaque type de test ?

CritèreParamétriqueNon paramétrique
Distribution des donnéesNormale ou transformableNon normale ou inconnue
Échelle de mesureIntervalle ou ratioOrdinale ou intervalle non fiable
Échantillons petits (< 30)Avec prudence, vérifier normalitéRecommandé
Présence de valeurs aberrantesProblématiquePeu d’impact

Notes importantes

  • Toujours vérifier les conditions avant de choisir le test.
  • Si les conditions des tests paramétriques sont partiellement respectées :
    • Considérez des transformations de données (ex. log, racine carrée).
    • Utilisez des tests robustes (ex. t-test de Welch pour variances inégales).
  • Les tests non paramétriques sont une excellente alternative, mais il faut noter leur perte de puissance relative.

Statistique du test

Définition

Une valeur numérique calculée à partir des données pour mesurer l’écart entre :

  • une estimation ($\theta$) (basée sur l’échantillon)
  • et une valeur hypothétique ($\theta_0$) (sous l’hypothèse nulle, $H_0$).

Objectif

Quantifier si l’écart observé est suffisamment grand pour rejeter $H_0$.

Formule générale

  • $$ \text{Statistique du test} = \frac{\theta - \theta_0}{\text{Erreur standard de }\theta} $$
    • $\theta$ : Estimation basée sur les données (moyenne, proportion, etc.).
    • $\theta_0$ : Valeur hypothétique sous $H_0$.
    • Erreur standard : Quantifie la variabilité attendue de $\theta$ si $H_0$ est vraie.

Interprétation

  • La statistique du test mesure l’écart relatif entre l’estimation et la valeur attendue sous $H_0$ en tenant compte de la variabilité des données.
  • Valeur standardisée :
    • Une valeur proche de 0 indique que $\theta$ est compatible avec $\theta_0$.
    • Une valeur élevée (positive ou négative) indique un écart important, potentiellement significatif.

Exemple : t-test pour une moyenne

  • Hypothèse nulle : $H_0 : \mu = \mu_0$
  • Statistique du test : $$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
    • $\bar{x}$ : Moyenne de l’échantillon.
    • $\mu_0$ : Moyenne sous $H_0$.
    • $s$ : Écart-type de l’échantillon.
    • $n$ : Taille de l’échantillon.

Contexte

  • Question : Le poids moyen des adultes dans une région est-il de 70 kg ?
  • Données :
    • Taille de l’échantillon ($n$) : 50
    • Moyenne observée ($\bar{x}$) : 72 kg
    • Écart-type ($s$) : 8 kg

Hypothèses

  • Hypothèse nulle ($H_0$) : $\mu = 70$ (le poids moyen est de 70 kg).
  • Hypothèse alternative ($H_1$) : $\mu \neq 70$ (le poids moyen est différent de 70 kg).

Calcul de la statistique de test

$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$ $$ t = \frac{72 - 70}{8 / \sqrt{50}} = \frac{2}{1.13} \approx 1.77 $$

Seuil de décision

p-value et seuil $\alpha$ : Concepts clés

  • $\alpha$ : Niveau de signification prédéfini.
    • La probabilité maximale de rejeter $H_0$ alors qu’elle est vraie (erreur de type I).
    • Valeur typique : $\alpha = 0.05$.
  • $p$-value : Probabilité d’obtenir un résultat aussi extrême (ou plus) que celui observé, sous l’hypothèse $H_0$.

Interprétation de la p-value

  • Si $p \leq \alpha$ :
    • Rejeter $H_0$.
    • Les données fournissent des preuves significatives contre $H_0$.
  • Si $p > \alpha$ :
    • Ne pas rejeter $H_0$.
    • Les données ne fournissent pas suffisamment de preuves pour rejeter $H_0$.

Retour au cas pratique

Représentation visuelle

{style=“width: 65%”}

  1. Distribution t : Distribution de probabilité théorique de la statistique t sous $H_0$​.

note: La distribution t est utilisée dans les tests statistiques pour des échantillons de petite taille ou lorsque la variance de la population n’est pas connue. Elle est une approximation de la loi normale, mais avec des queues plus épaisses, ce qui permet de mieux gérer l’incertitude liée aux petits échantillons. Forme : Elle est symétrique et centrée sur 0, tout comme une courbe normale.Paramètre clé : Le nombre de degrés de liberté (dfdf), qui influence l’épaisseur des queues : Plus df est grand, plus la distribution t ressemble à une loi normale. Pour df→∞, elle converge vers une courbe normale standard.

Seuil critique pour $t$

  • Test bilatéral avec $\alpha = 0.05$.
  • Degrés de liberté ($df$) : $n - 1 = 50 - 1 = 49$.
  • Valeur critique $t_\text{crit}$ (table de Student) : $\pm 2.009$.

Représentation visuelle

{style=“width: 65%”}

  1. Régions de rejet : Les zones représentent les régions critiques définies par $±t_{critique}$​.

Comparaison

  • Statistique de test : $t = 1.77$.
  • Seuil critique : $t_\text{crit} = \pm 2.009$.
  • Conclusion :
    • $t = 1.77$ n’est pas dans la région de rejet.
    • On ne rejette pas $H_0$.

Représentation visuelle

{style=“width: 65%”}

  1. Statistique $t$ calculée

Interprétation avec p-value

  • Calcul de la $p$-value :
    • $p = 2 \cdot P(T > |t|)$ (test bilatéral).
    • Avec $t = 1.77$ et $df = 49$, $p \approx 0.083$.
  • Comparaison avec $\alpha$ :
    • $p = 0.083 > \alpha = 0.05$.
    • On ne rejette pas $H_0$.

Représentation visuelle

{style=“width: 65%”}

  1. $p$-value : Elle indique la probabilité associée à la statistique calculée.

Conclusion

  • Les données ne fournissent pas suffisamment de preuves pour conclure que le poids moyen est différent de 70 kg.
  • Interprétation : L’écart observé peut être dû au hasard.

Points clés à retenir

  1. $\alpha$ est le seuil fixé a priori pour décider de rejeter ou non $H_0$.
  2. Une $p$-value plus faible que $\alpha$ indique des preuves contre $H_0$ mais ne prouve pas $H_1$.
  3. Ne pas confondre significativité statistique et importance pratique.

Erreurs courantes

Tests multiples : Problème

  • Situation : Plusieurs tests statistiques sont réalisés sur le même jeu de données.
  • Risque : Chaque test a une probabilité $\alpha$ (souvent 5%) de produire une erreur de type I (faux positif).
  • Conséquence : La probabilité cumulative d’obtenir au moins un faux positif augmente avec le nombre de tests.

Exemple de tests multiples

  • Cas : Étudier l’effet d’un médicament sur 20 variables (par exemple, taux sanguins de 20 molécules).
  • Hypothèse nulle : Le médicament n’a aucun effet sur ces variables.
  • Résultat attendu :
    • Avec $\alpha = 0.05$, en moyenne $0,05 \times 20 = 1$ test donnera un faux positif par hasard.
  • Conclusion erronée : Un effet pourrait être attribué au médicament alors qu’il est dû au hasard.

Correction des tests multiples

  • Solutions pour réduire l’impact :
    1. Correction de Bonferroni :
      • Diviser $\alpha$ par le nombre de tests ($\alpha_\text{ajusté} = \alpha / m$).
      • Limite : Très conservatif, peut réduire la puissance du test.
    2. Faux taux de découverte (FDR) :
      • Contrôle la proportion de faux positifs parmi les tests rejetés.
      • Méthode de Benjamini-Hochberg.

$p$-hacking : Problème

  • Définition : Manipuler l’analyse statistique ou les données pour obtenir des résultats significatifs.
  • Méthodes courantes :
    1. Tester plusieurs hypothèses et ne rapporter que les résultats significatifs.
    2. Ajuster les analyses ou exclure des données pour atteindre $p < \alpha$.
    3. Réaliser des tests intermédiaires jusqu’à obtenir un résultat significatif.

Exemple de $p$-hacking

  • Étude clinique : Tester l’effet d’un médicament.
    • Données brutes : Pas de résultat significatif ($p = 0.08$).
    • Manipulation :
      1. Supprimer certains participants (par exemple, ceux avec des valeurs extrêmes).
      2. Recalculer les résultats ($p = 0.04$).
    • Problème : Le résultat est artificiellement significatif.

Conséquences du $p$-hacking

  • Faux positifs : Accepter des hypothèses fausses.
  • Biais de publication : Les résultats non significatifs sont souvent ignorés, créant un biais dans la littérature scientifique.
  • Perte de confiance : Réduire la crédibilité des études.

Solutions pour éviter le $p$-hacking

  • Pratiques transparentes :

    1. Pré-enregistrer les hypothèses et la méthodologie (preregistration).
    2. Analyser toutes les données, même les résultats non significatifs.
    3. Rapporter les tests multiples et ajuster $\alpha$.
  • Alternatives aux $p$-values :

    • Utiliser des intervalles de confiance ou des approches bayésiennes pour évaluer les résultats.

Points clés à retenir

  1. Les tests multiples augmentent le risque de faux positifs.
  2. Le $p$-hacking manipule les analyses pour obtenir des résultats significatifs.
  3. Des pratiques transparentes et des corrections statistiques réduisent ces risques.

Tests d’Hypothèse

Tests paramétriques

Définition

Méthodes statistiques basées sur des hypothèses concernant la distribution des données (souvent normale).

Objectif

Tester des hypothèses sur les paramètres d’une population (par ex. la moyenne).

Hypothèses

  • Les données suivent une loi normale
  • Les échantillons sont indépendants
  • Variance homogène entre les groupes (selon le test)

Test t : Comparer une moyenne à une référence

Conditions

  • Données suivant une loi normale.

Formule (rappel)

$$ t = \frac{\bar{x} - \mu_0}{\text{SE}} $$ où :

  • $\bar{x}$ : Moyenne de l’échantillon.
  • $\mu_0$ : Valeur hypothétique pour la moyenne (selon $H_0$).
  • $\text{SE}$ : Erreur standard de la moyenne $\left( \text{SE} = \frac{s}{\sqrt{n}} \right)$.

{style=“width: 100%”}

Exemple : Test t pour une moyenne

Question

Un fabricant de bouteilles affirme que le volume moyen est de 1L. Les consommateurs veulent vérifier cette affirmation.

Données

  • Taille de l’échantillon ($n$) : 30.
  • Moyenne observée ($\bar{X}$) : 1.02 L.
  • Écart-type ($s$) : 0.05 L.
  • Hypothèse nulle : $\mu_0 = 1$ L.

Calcul

$$ t = \frac{\bar{X} - \mu_0}{\text{SE}} = \frac{1.02 - 1}{0.05 / \sqrt{30}} \approx 2.19 $$

Conclusion

Comparaison avec $t_\text{critique}$ pour $\alpha = 0.05$ et $df = 29$ :

  • $t_\text{critique} = \pm 2.045$.
  • $t = 2.19$ > $t_\text{critique}$.
  • Résultat : Rejeter $H_0$. Le volume moyen semble supérieur à 1L.

Test t pour deux groupes : Comparaison des moyennes

Types

  1. Groupes indépendants :
    • Compare les moyennes de deux échantillons indépendants.
    • Exemple : Efficacité de deux médicaments différents.
  2. Groupes appariés :
    • Compare des moyennes de données appariées (avant/après).
    • Exemple : Poids avant et après un régime.

Hypothèses

  • Nulle ($H_0$) : Les moyennes des groupes sont égales ($\mu_1 = \mu_2$).
  • Alternative ($H_1$) : Les moyennes sont différentes ($\mu_1 \neq \mu_2$).

Formules pour deux groupes

  1. Groupes indépendants : $$ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$
  1. Groupes appariés : $$ t = \frac{\bar{d}}{\text{SE}_D} $$ où $\bar{d}$ est la moyenne des différences et $\text{SE}_D$ l’erreur standard des différences.

Retour sur l’exemple introductif

Effet d’un médicament sur la tension artérielle.

{style=“width: 65%”}

Résultats

Moyennes et écarts-types

  • Moyenne placebo : $\bar{X}_\text{placebo} \approx 0.56$.
  • Moyenne traitement : $\bar{X}_\text{traitement} \approx -4.87$.
  • Écart-type placebo : $s_\text{placebo} \approx 9.58$.
  • Écart-type traitement : $s_\text{traitement} \approx 9.21$.

Calcul de t $$ t \approx \frac{0.56 - (-4.87)}{\sqrt{\frac{9.58^2}{30} + \frac{9.21^2}{30}}} \approx 2.41 $$

Seuil critique

  • Niveau de signification : $\alpha = 0.05$.
  • $t_\text{critique} \approx \pm 2.00$.
  • $t = 2.41 > t_\text{critique}$.

Conclusion

  • Rejeter $H_0$ : Le traitement réduit significativement la pression artérielle.

Exemple de tests appairés

Contexte de l’étude

  • Objectif : Évaluer l’effet d’un programme de réduction du stress sur la pression artérielle.
  • Deux moments de mesure : Avant et Après le programme.
  • Question : Le programme réduit-il significativement la pression artérielle ?

Visualisation des données

{style=“width: 70%”}

Chaque participant est relié pour montrer l’évolution individuelle.

Hypothèses

  • $H_0$ : Pas de différence moyenne ($\mu_D = 0$).
  • $H_1$ : Différence moyenne non nulle ($\mu_D \neq 0$).

Distribution des différences

  • Histogramme des différences (Avant - Après).
  • Moyenne des différences : -10 mmHg.

{style=“width: 50%”}

Boxplots avec connexions

  • Comparaison synthétique des distributions Avant et Après.
  • Lignes montrant les différences individuelles.

{style=“width: 50%”}

Points clés

  • Le test t apparié analyse des différences entre deux mesures liées.
  • Résultats : Réduction significative de la pression artérielle après le programme.

Résultats

  • Statistique $t$ : $$ t = \frac{-10}{1.12} \approx -8.93 $$
  • Seuil critique : $\pm 2.093$.
  • Décision : Rejet de $H_0$, réduction significative.

Points clés à retenir

  1. Les tests t sont puissants pour comparer des moyennes.
  2. Ils nécessitent des hypothèses spécifiques (normalité, homogénéité).
  3. Bien choisir entre groupes indépendants et appariés.

Synthèse

flowchart TD A@{ shape: f-circ } --> B{Un ou deux groupes ?} B -- Un groupe --> E[Test t pour un échantillon] B -- Deux groupes --> F{Données appariées ?} F -- Oui (appariées) --> I[Test t apparié] F -- Non (indépendants) --> J[Test t pour deux échantillons indépendants] O@{ shape: comment, label: ["**Condition :** Les données suivent une loi **normale**"]}

ANOVA (Analysis of Variance)

Objectif

  • Comparer les moyennes de plusieurs groupes (plus de 2).
  • Question clé : Les différences observées entre les groupes sont-elles dues au hasard ?

Hypothèses

  • $H_0$ : Les moyennes des groupes sont égales.
    • Exemple : Les 3 traitements ont le même effet ($\mu_1 = \mu_2 = \mu_3$).
  • $H_1$ : Au moins une moyenne diffère.

Concept clé : Variabilité

L’ANOVA décompose la variabilité totale en deux sources :

  1. Variabilité entre les groupes : Différences dues au facteur étudié (traitements, conditions…).
  2. Variabilité à l’intérieur des groupes : Variabilité due au hasard (erreur expérimentale).

Partition des variances

Formule générale : $$ \text{SSTO} = \text{SSR} + \text{SSE} $$

  • SSTO : Sum of Squares Total (somme des carrés totaux) $\rightarrow$ Variabilité totale
  • SSR : Sum of Squares for Regression (somme des carrés expliqués) $\rightarrow$ Variabilité entre groupes
  • SSE : Sum of Squares for Error (somme des carrés des erreurs) $\rightarrow$ Variabilité à l’intérieur des groupes

Statistique F

La statistique F mesure le rapport entre la variance expliquée et la variance non expliquée :

$$ F = \frac{\text{MSR}}{\text{MSE}} $$

  • Moyenne des carrées expliqués :
    • $ \text{MSR} = \frac{\text{SSR}}{\text{df}_{\text{groupes}}} $
  • Moyenne des carrés des erreurs :
    • $ \text{MSE} = \frac{\text{SSE}}{\text{df}_{\text{erreur}}} $

Interprétation de F

  • Si $F$ est grand, cela indique que la variabilité entre les groupes est significativement plus grande que celle à l’intérieur des groupes.
  • Décision :
    • Comparer $F$ calculé à $F_{\text{critique}}$ (table de Fisher).
    • Si $F > F_{\text{critique}}$, rejeter $H_0$.

Résultats attendus

  1. Si $F > F_{\text{critique}}$ :
    • Rejeter $H_0$.
    • Conclure qu’au moins un groupe diffère des autres.
  2. Si $F \leq F_{\text{critique}}$ :
    • Ne pas rejeter $H_0$.
    • Les différences observées sont probablement dues au hasard.

Conditions d’application de l’ANOVA

  1. Normalité : Les données dans chaque groupe suivent une loi normale.
  2. Homogénéité des variances : Variances similaires entre les groupes.
  3. Indépendance : Les observations dans chaque groupe sont indépendantes.

Limites de l’ANOVA

  • Ne permet pas de savoir quel groupe diffère des autres.
  • Nécessite des tests post-hoc pour identifier les différences spécifiques.

TODO : Ajouter graphique d’illustration et ensuite les posthoc

Corrélation de Pearson

Relation linéaire entre deux variables quantitatives.

Définition

La corrélation de Pearson mesure la force et la direction de la relation linéaire entre deux variables quantitatives.

Formule

$$ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} $$

où :

  • $X_i, Y_i$ : Valeurs des variables $X$ et $Y$.
  • $\bar{X}, \bar{Y}$ : Moyennes des variables $X$ et $Y$.

Interprétation

  • $r > 0$ : Relation positive (les deux variables augmentent ensemble).
  • $r < 0$ : Relation négative (une variable diminue lorsque l’autre augmente).
  • $r = 0$ : Pas de relation linéaire.
  • Valeur absolue de $r$ :
    • $|r| \approx 1$ : Relation forte.
    • $|r| \approx 0$ : Relation faible.

Hypothèses

  • Les données suivent une relation linéaire.
  • Les variables $X$ et $Y$ suivent une distribution normale.
  • Pas de valeurs aberrantes importantes.

Exemple

Contexte : Relation entre le temps d’étude (heures) et la note obtenue (sur 20).

{style=“width: 60%”}

Limites

  • Ne détecte que les relations linéaires.
  • Sensible aux valeurs aberrantes.
  • N’implique pas de causalité.

alt text

Tests d’Hypothèse

Tests Non Paramétriques

Définition

  • Les tests non paramétriques ne nécessitent aucune hypothèse sur la distribution des données.
  • La plupart du temps repose sur les rangs des données plutôt que sur les valeurs brutes.
  • Idéal pour :
    • Données ne suivant pas une loi normale.
    • Échantillons de petite taille.
    • Données ordinales ou contenant des valeurs aberrantes.

Avantages et Inconvénients

Avantages :

  • Robustes aux violations des hypothèses (ex. normalité, homogénéité des variances).
  • Adaptés à des échelles ordinales.

Inconvénients :

  • Moins puissants que les tests paramétriques si les hypothèses de ceux-ci sont respectées.
  • Plus difficiles à interpréter (pas de taille d’effet directement comparable).

Test de Wilcoxon

Définition

Le test de Wilcoxon est utilisé pour comparer des échantillons appariés lorsque la condition de normalité n’est pas respectée.

Contexte

  • Données appariées : Mesures avant/après ou sur les mêmes sujets.
  • Exemple : Comparer la pression artérielle avant et après un traitement.

Hypothèses

  • $H_0$ : La différence médiane entre les paires est égale à zéro (pas de changement).
  • $H_1$ : La différence médiane entre les paires est différente de zéro (changement significatif).

Fonctionnement

  1. Calculer la différence entre les deux observations pour chaque paire.
  2. Trier les différences absolues et attribuer des rangs.
  3. Affecter un signe (+ ou -) à chaque rang en fonction de la différence initiale.
  4. Calculer la statistique de Wilcoxon (somme des rangs positifs ou négatifs).

Formule

$$ W = \text{somme des rangs positifs} $$

où :

  • Les rangs sont attribués aux différences absolues ($|d_i|$).
  • Les différences nulles ($d_i = 0$) sont ignorées.

Exemple Pratique

Contexte : Tester l’effet d’un programme de réduction du stress sur la pression artérielle.

  • Données :
    • Avant : $[140, 135, 150, 145, 155]$
    • Après : $[130, 133, 148, 140, 152]$
  • Différences :
    • $d = \text{Avant} - \text{Après} = [10, 2, 2, 5, 3]$
  • Rangs des différences absolues :
    • $|d| = [10, 2, 2, 5, 3] \rightarrow \text{rangs} = [5, 1.5, 1.5, 4, 3]$
  • Signe des rangs :
    • $[+, +, +, +, +]$.
  • Statistique :
    • $W = \sum \text{rangs positifs} = 15$.

Comparaison avec le seuil critique

  • Seuil critique (table de Wilcoxon, $n=5$, $\alpha=0.05$) : $W_\text{crit} = 2$.
  • $W = 15 > W_\text{crit}$
  • Conclusion : Rejeter $H_0$, la pression artérielle a significativement diminué.

Points Clés

  • Le test de Wilcoxon est une alternative non paramétrique au t-test apparié.
  • Il évalue la médiane des différences plutôt que les moyennes.
  • Idéal pour des petits échantillons ou des données avec des valeurs aberrantes.

Limites

  • Ne fonctionne pas si les données appariées sont fortement dépendantes d’une relation non linéaire.
  • Ignore les valeurs nulles dans les différences.

Mann-Whitney

Définition

Le test de Mann-Whitney est une alternative non paramétrique au t-test pour comparer les positions centrales de deux groupes indépendants.

Contexte

  • Utilisé lorsque la distribution des données n’est pas normale ou contient des valeurs aberrantes.
  • Compare les positions des distributions des deux groupes.
  • Ne nécessite pas d’hypothèse sur la variance ou la forme de la distribution.

Fonctionnement

  1. Fusion des données :
    • Mélanger les valeurs des deux groupes et les trier par ordre croissant.
  2. Attribuer des rangs :
    • Assigner un rang à chaque valeur dans l’ensemble trié.
  3. Somme des rangs par groupe :
    • Calculer la somme des rangs pour chaque groupe ($R_1$, $R_2$).
  1. Statistique de test :

    • Utiliser la somme des rangs pour calculer la statistique $U$ : $$ U_1 = n_1n_2 + \frac{n_1(n_1 + 1)}{2} - R_1 $$ $$ U_2 = n_1n_2 - U_1 $$

    où $U$ est la plus petite des deux valeurs ($U_1$, $U_2$).

Exemple

Contexte : Comparer les temps de réponse entre deux groupes soumis à des stimuli différents.

  • Données :
    • Groupe A : $[12, 14, 15, 19, 22]$
    • Groupe B : $[8, 10, 17, 20, 25]$
  • Étapes :
    1. Fusionner les valeurs et trier : $[8, 10, 12, 14, 15, 17, 19, 20, 22, 25]$.
    2. Attribuer des rangs : $[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]$.
    3. Sommes des rangs :
      • Groupe A : $R_1 = 3 + 4 + 5 + 7 + 9 = 28$.
      • Groupe B : $R_2 = 1 + 2 + 6 + 8 + 10 = 27$.
    4. Statistique $U$ :
    • $U_1 = n_1n_2 + \frac{n_1(n_1 + 1)}{2} - R_1 = 25 + 15 - 28 = 12$.
    • $U_2 = n_1n_2 - U_1 = 25 - 12 = 13$.
    • $U = \min(U_1, U_2) = 12$.

Comparaison avec le seuil critique

  • Pour $n_1 = 5$, $n_2 = 5$, et $\alpha = 0.05$ (bilatéral), seuil critique $U_\text{critique} = 6$.
  • $U = 12 > U_\text{critique}$.
  • Conclusion : On ne rejette pas $H_0$. Pas de différence significative entre les groupes.

Points Clés

  • Le test de Mann-Whitney est idéal pour des petits échantillons ou des données non normales.
  • Il compare les positions des distributions et non les moyennes.
  • Insensible aux valeurs extrêmes.

Limites

  • Ne fonctionne pas bien si les distributions ont des formes différentes.
  • Hypothèse implicite : Les distributions des groupes doivent avoir une forme similaire (même dispersion).

Kruskal-Wallis

Définition

Le test de Kruskal-Wallis est une alternative non paramétrique à l’ANOVA pour comparer les positions de plusieurs groupes (>2).

Contexte

  • Utilisé lorsque les données ne suivent pas une loi normale ou présentent des valeurs aberrantes.
  • Compare la position centrale (médiane) des groupes.
  • Ne nécessite pas l’hypothèse d’homogénéité des variances.

Fonctionnement

  1. Fusionner les données de tous les groupes et les trier par ordre croissant.
  2. Attribuer des rangs à chaque valeur dans l’ensemble trié.
  3. Calculer la somme des rangs pour chaque groupe ($R_i$).
  1. Calculer la statistique de test $H$ : $$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) $$ où :
    • $N$ : Nombre total d’observations.
    • $k$ : Nombre de groupes.
    • $n_i$ : Taille du groupe $i$.
    • $R_i$ : Somme des rangs du groupe $i$.

Points Clés

  • Le test de Kruskal-Wallis est utile pour des données non normales ou ordinales.
  • Il évalue les différences de position centrale (médianes) entre les groupes.
  • Si significatif, un test post-hoc est nécessaire pour identifier les groupes qui diffèrent.

Limites

  • Ne fonctionne pas bien si les distributions des groupes ont des formes ou des dispersions différentes.
  • Plus puissant pour les petits échantillons, mais moins puissant que l’ANOVA si les hypothèses de normalité sont respectées.

Tests Post-Hoc

Si le test est significatif, utilisez des tests comme :

  • Dunn : Comparaisons par paires avec ajustement des p-values.
  • Conover : Comparaisons de rangs entre groupes.

Test χ²

Définition

Le test $\chi^2$ est utilisé pour vérifier l’indépendance entre deux variables qualitatives.

Contexte

  • Évaluer si une relation statistique existe entre deux variables qualitatives.
  • Les données sont présentées sous forme d’un tableau de contingence.

Fonctionnement

  1. Tableau observé ($O_{ij}$) :
    • Présenter les données sous forme de fréquences observées.
  2. Tableau attendu ($E_{ij}$) :
    • Calculer les fréquences attendues si les variables étaient indépendantes : $$ E_{ij} = \frac{\text{Total ligne}_i \times \text{Total colonne}_j}{\text{Total global}} $$
  1. Statistique $\chi^2$ : $$ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$ où :
    • $r$ : Nombre de lignes.
    • $c$ : Nombre de colonnes.
    • $O_{ij}$ : Fréquence observée pour la cellule $(i, j)$.
    • $E_{ij}$ : Fréquence attendue pour la cellule $(i, j)$.

Points Clés

  • Le test $\chi^2$ est une méthode puissante pour analyser des relations entre variables qualitatives.
  • Il nécessite des effectifs suffisants (chaque cellule $E_{ij} > 5$ pour des résultats fiables).
  • Si $\chi^2$ est significatif, une relation existe, mais cela ne prouve pas une causalité.

Limites

  • Sensible à des effectifs faibles ou à des tailles de cellule déséquilibrées.
  • Ne convient pas aux données ordonnées ou quantitatives.

Tests de normalité

Kolmogorov-Smirnov, Shapiro-Wilk.

Définition

Les tests de normalité permettent de vérifier si un ensemble de données suit une distribution normale.

Contexte

  • Les tests statistiques paramétriques (ex. t-test, ANOVA) reposent sur l’hypothèse de normalité.
  • La normalité peut être vérifiée via :
    • Méthodes graphiques : Histogrammes, Q-Q plots.
    • Tests statistiques : Kolmogorov-Smirnov, Shapiro-Wilk.

Kolmogorov-Smirnov (KS)

  • Statistique du test : $$ D = \max |F(x) - F_0(x)| $$ où :
    • $F(x)$ : Fonction de répartition empirique des données.
    • $F_0(x)$ : Fonction de répartition de la distribution normale.
  • Limite : Moins puissant pour les petits échantillons.

Shapiro-Wilk

  • Statistique du test : $$ W = \frac{\left( \sum_{i=1}^{n} a_i x_{(i)} \right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$ où :
    • $a_i$ : Coefficients prédéfinis basés sur une distribution normale.
    • $x_{(i)}$ : Valeurs ordonnées des données.
    • $\bar{x}$ : Moyenne des données.
  • Avantage : Très puissant pour les petits échantillons ($n \leq 50$).

Comparaison des deux tests

CaractéristiqueKolmogorov-SmirnovShapiro-Wilk
Type de comparaisonDistribution globaleDonnées ordonnées
PuissanceModéréeÉlevée pour petits échantillons
Taille d’échantillonFlexibleEfficace pour $n \leq 50$
LimitesMoins sensible aux écartsMoins robuste aux valeurs aberrantes

Visualisation

  • Histogramme des données : Pour observer la forme de la distribution.
  • Q-Q Plot : Comparer les quantiles des données à ceux d’une distribution normale.

(Insérer des graphiques illustrant ces concepts.)

Points Clés

  1. Toujours utiliser des méthodes graphiques en complément des tests statistiques.
  2. Le choix du test dépend de la taille de l’échantillon :
    • Shapiro-Wilk pour $n \leq 50$.
    • Kolmogorov-Smirnov pour des échantillons plus grands.
  1. Si les données ne sont pas normales, envisagez :
    • Des transformations (logarithmes, racines carrées).
    • Des tests non paramétriques (ex. Mann-Whitney, Wilcoxon).

Régression Linéaire et ANOVA

Régression linéaire simple

Introduction

  • Objectif : Étudier la relation entre une variable dépendante ($Y$) et une variable explicative ($X$).
  • Exemples :
    • Relation entre le temps d’étude ($X$) et la note obtenue ($Y$).
    • Influence de la température ($X$) sur la consommation d’énergie ($Y$).

Modèle

  • Formule : $$ Y = β_0 + β_1X + ε $$ où :
    • $β_0$ : Ordonnée à l’origine (valeur de $Y$ lorsque $X = 0$).
    • $β_1$ : Pente (variation de $Y$ pour une unité de variation de $X$).
    • $ε$ : Terme d’erreur (variabilité non expliquée par le modèle).

Estimation des paramètres

  • Méthode des moindres carrés :
    • Trouver $β_0$ et $β_1$ en minimisant la somme des carrés des écarts entre les valeurs observées et les valeurs prédites.
    • Formules : $$ β_1 = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$ $$ β_0 = \bar{Y} - β_1\bar{X} $$

Analyse des résidus

  1. Définition :
    • Résidus = Différence entre les valeurs observées et prédites : $$ e_i = Y_i - \hat{Y}_i $$
    • Les résidus mesurent l’écart entre le modèle et les données.
  1. Vérifications :
    • Normalité des résidus : Test de Shapiro-Wilk, histogramme.
    • Homogénéité des variances : Diagramme des résidus vs valeurs prédites.
    • Indépendance des résidus : Vérification visuelle ou test de Durbin-Watson.

Coefficient $R^2$

  1. Définition :
    • Proportion de la variance de $Y$ expliquée par $X$ dans le modèle.
    • Formule : $$ R^2 = \frac{\text{SSR}}{\text{SSTO}} = 1 - \frac{\text{SSE}}{\text{SSTO}} $$
  1. Interprétation :
    • $R^2 = 0.8$ signifie que 80 % de la variabilité de $Y$ est expliquée par $X$.
    • Plus $R^2$ est proche de 1, meilleur est le modèle.

Exemple pratique

{style=“width: 70%”}

Validation

{style=“width: 70%”}

Régression vs Corrélation

  • Régression linéaire : Modélise une relation causale ($Y = β_0 + β_1X$), permet de prédire $Y$ à partir de $X$.
  • Corrélation de Pearson : Mesure la force et la direction d’une relation linéaire ($r$), sans prédiction ni causalité.
  • Lien : Dans une régression simple, $R^2 = r^2$ (proportion de variance expliquée).

Effet des valeurs aberrantes

  • Définition :
    • Une valeur aberrante est une observation qui s’écarte significativement des autres.
    • Peut influencer fortement les résultats de la régression.
  • Problèmes causés :
    • Modification de la pente ($β_1$) et de l’interception ($β_0$).
    • Réduction de la qualité de l’ajustement (faible $R^2$).
    • Effets disproportionnés sur les conclusions.

Méthodes pour détecter les valeurs aberrantes

  1. Visualisations :
    • Scatterplots : Identifier des points isolés.
    • Graphiques des résidus : Rechercher des écarts majeurs.
  1. Cook’s Distance :
    • Mesure l’impact de chaque point sur les paramètres estimés. $$ D_i = \frac{\text{Résidus corrigés}^2}{p \cdot \text{Variance des erreurs}} $$
    • Points avec $D_i > 4 / n$ (règle empirique) peuvent être suspects.

Exemple

{style=“width: 70%”}

{style=“width: 70%”}

Transformations linéarisantes

  • Objectif : Améliorer l’ajustement du modèle en rendant la relation linéaire.

  • Méthodes courantes :

    1. Logarithmes ($\log$) : Utilisé pour les données exponentielles ou avec grande variabilité.
    2. Racines carrées : Réduit les écarts dans les données avec des distributions asymétriques.
    3. Inverses ($1/x$) : Adaptés pour des relations décroissantes rapides.
  • Exemple :
    • Relation non linéaire : Temps de réaction ($Y$) en fonction de la dose ($X$).
    • Transformation : Appliquer $\log(X)$ pour obtenir une relation linéaire.

{style=“width: 70%”}

Test de Fisher-Snedecor

  • Objectif : Vérifier la qualité de l’ajustement du modèle.

  • Formule : $$ F = \frac{\text{MSR}}{\text{MSE}} = \frac{\text{Variance expliquée}}{\text{Variance résiduelle}} $$ où :

    • $\text{MSR}$ : Moyenne des carrés pour la régression.
    • $\text{MSE}$ : Moyenne des carrés des erreurs.
  • Hypothèses :

    • $H_0$ : Le modèle n’explique pas mieux les données qu’un modèle constant.
    • $H_1$ : Le modèle explique significativement les données.
  • Critère :

    • Si $F_\text{calculé} > F_\text{critique}$ (table de Fisher), rejeter $H_0$.

Régression Linéaire et ANOVA

ANOVA appliquée à la régression

Concept

  • Objectif : L’ANOVA permet d’évaluer si un modèle de régression explique significativement les variations d’une variable dépendante ($Y$).
  • Idée clé : Comparer la variabilité expliquée par le modèle à la variabilité résiduelle (non expliquée).
  • Hypothèses :
    • $H_0$ : Le modèle n’a aucun pouvoir explicatif (toutes les $β_i = 0$).
    • $H_1$ : Le modèle explique significativement $Y$ (au moins un $β_i \neq 0$).

Partition des variances

  • La variabilité totale ($SSTO$) se décompose en :
    • Variabilité expliquée ($SSR$) : Variabilité attribuable au modèle.
    • Variabilité résiduelle ($SSE$) : Variabilité due à des facteurs non modélisés.

$$ SSTO = SSR + SSE $$

Statistique F pour ANOVA

  • Permet de comparer les variances expliquée et résiduelle :

$$ F = \frac{\frac{SSR}{df_{modèle}}}{\frac{SSE}{df_{résidus}}} $$

  • Interprétation :
    • $F$ élevé → Variance expliquée significative → Rejet de $H_0$.
    • $F$ faible → Variance expliquée non significative → Non-rejet de $H_0$.

Conditions d’application

  1. Normalité des résidus :
    • Les résidus doivent suivre une distribution normale.
    • Vérification : Histogramme des résidus, test de Shapiro-Wilk.
  1. Indépendance des observations :

    • Les données doivent être indépendantes.
    • Exemple : Pas de dépendance temporelle dans les séries chronologiques.
  2. Homogénéité des variances (homoscédasticité) :

    • Les variances résiduelles doivent être constantes.
    • Vérification : Graphique des résidus vs prédictions.
    • Test de Levene, test de Bartlett.

Exemple ANOVA régression

Vérifications graphiques

{style=“width: 80%”}

Extensions et Interactions

Régression Multiple

Définition

  • Objectif : Inclure plusieurs variables explicatives ($X_1, X_2, …, X_k$) pour mieux modéliser et prédire la variable dépendante ($Y$).
  • Modèle : $$ Y = β_0 + β_1X_1 + β_2X_2 + … + β_kX_k + ε $$

Avantages

  1. Capturer des relations complexes entre $Y$ et plusieurs facteurs.
  2. Réduire l’effet de confusion en tenant compte de covariables.

Hypothèses

  1. Relation linéaire entre chaque $X_i$ et $Y$.
  2. Normalité et indépendance des résidus.
  3. Pas de multicolinéarité excessive entre les $X_i$.

Régression Multiple : Exemple

Contexte :

  • Étudier l’effet combiné de l’expérience ($X_1$) et du niveau d’éducation ($X_2$) sur le salaire ($Y$).

Modèle :

$$ \text{Salaire} = β_0 + β_1 \cdot \text{Expérience} + β_2 \cdot \text{Éducation} + ε $$

Résultats :

  • $β_1 > 0$ : Plus d’expérience → salaire plus élevé.
  • $β_2 > 0$ : Meilleur niveau d’éducation → salaire plus élevé.

{style=“width: 80%”}

Interactions entre variables explicatives

Définition

  • Interaction : Lorsque l’effet d’une variable explicative ($X_1$) sur $Y$ dépend des valeurs d’une autre variable explicative ($X_2$).
  • Modèle avec interaction : $$ Y = β_0 + β_1X_1 + β_2X_2 + β_3(X_1 \cdot X_2) + ε $$

Exemple d’interaction

Contexte

  • Étudier l’effet combiné de l’activité physique ($X_1$) et du régime alimentaire ($X_2$) sur la perte de poids ($Y$).

Résultats

  • Sans interaction : Chaque facteur a un effet indépendant.
  • Avec interaction : L’efficacité de l’activité physique dépend du régime alimentaire.

Régression Linéaire et ANOVA

Pièges et Résumé

Pièges courants en régression

1. Surajustement

  • Définition : Modèle trop complexe par rapport aux données.
  • Conséquences : Le modèle s’ajuste parfaitement aux données d’entraînement mais échoue à généraliser sur de nouvelles données.
  • Exemple : Trop de variables explicatives ou interactions inutiles.
  • Solutions :
    • Utiliser des techniques comme la validation croisée.
    • Réduire la complexité du modèle.

2. Manque de données

  • Définition : Échantillon trop petit pour obtenir des résultats fiables.
  • Conséquences :
    • Variabilité élevée des estimations.
    • Faible puissance statistique.
  • Solution :
    • Augmenter la taille de l’échantillon si possible.
    • Être prudent dans l’interprétation des résultats.

3. Hypothèses violées

  • Problème : La régression repose sur des hypothèses (normalité, linéarité, homogénéité des variances).
  • Conséquences :
    • Résultats biaisés ou non fiables.
  • Solution :
    • Vérifier les hypothèses via des graphiques (résidus, normalité).
    • Appliquer des transformations ou des modèles alternatifs.

Tests en application

Choix du test

Tableau guide des tests selon le contexte.

Impact de la Taille de l’Échantillon

Relation entre taille d’échantillon et puissance statistique

  • Puissance ($1 - \beta$) : Probabilité de détecter un effet réel.
    • Dépend de :
      • Taille de l’échantillon.
      • Magnitude de l’effet.
      • Niveau de significativité ($\alpha$).

TODO : Revoir la partie sur les sur-échantillonnage

Cas pratiques

  1. Petit échantillon :
    • Faible puissance statistique.
    • Risque élevé d’erreur de type II (faux négatif).
  2. Grand échantillon :
    • Haute puissance statistique.
    • Risque d’amplifier des différences insignifiantes en pratique.

Représentation Visuelle

(Insérer un graphique montrant la relation entre la taille de l’échantillon et $1 - \beta$.)

  • Petit échantillon : Grande variabilité des estimations.
  • Grand échantillon : Réduction des erreurs de type II.

Erreurs Courantes : Interprétation des $p$-values

1. Signifiance statistique ≠ Importance pratique

  • Problème : Un $p$-value faible ne garantit pas un effet significatif en pratique.
  • Exemple : Une différence de 1 mmHg avec $p = 0.01$.

2. Ne pas rejeter $H_0$ ≠ Prouver $H_0$

  • Problème : Une $p$-value élevée ne prouve pas l’absence d’effet.
  • Solution : Examiner la taille d’effet et la puissance.

3. Confusion avec les probabilités

  • Faux : “$p = 0.05$ signifie qu’il y a 95 % de chances que $H_0$ soit vraie.”
  • Correct : “$p = 0.05$ est la probabilité d’obtenir un résultat aussi extrême si $H_0$ est vraie.”

Graphiques et Visualisation des Résultats

Importance des graphiques

  • Les données brutes révèlent des tendances invisibles dans les statistiques seules.
  • Permettent de vérifier les hypothèses visuellement :
    • Normalité.
    • Homogénéité des variances.
    • Linéarité.

Types de visualisations recommandées

  1. Boxplots : Comparer des groupes.
  2. Scatterplots : Relations entre variables quantitatives.
  3. Histogrammes : Distribution des données.
  4. Graphiques des résidus : Vérifier les hypothèses en régression.

Exemple de Visualisation

(Insérer des exemples de graphiques comme un scatterplot avec une droite de régression ou un boxplot comparant deux groupes.)

Conclusion

TODO : workflow d’analyse (cf TP)

Résumé des Points Clés

  1. Méthodologie scientifique :
    • Approche hypothético-déductive pour valider des hypothèses.
    • Importance des tests statistiques pour prendre des décisions basées sur les données.
  1. Tests d’hypothèse :
    • $H_0$ : Hypothèse nulle (absence d’effet).
    • $H_1$ : Hypothèse alternative (présence d’un effet).
    • Interprétation correcte des $p$-values et des résultats.
  1. Régression et ANOVA :
    • Régression pour modéliser les relations entre variables quantitatives.
    • ANOVA pour comparer des moyennes entre plusieurs groupes.
  1. Visualisation des données :
    • Essentielle pour interpréter et communiquer les résultats.
    • Graphiques pour valider les hypothèses (résidus, normalité, etc.).