Licence de Psychologie - TD n° 11

Analyse de Variance - Corrélation Linéaire


 






1 - Analyse de variance

1.1 - Analyse de variance à un facteur.

On considère les données décrites dans l'énoncé "Données Bransfor" (énoncé 38), qui ont été saisies dans la feuille BRANSFOR du classeur W:\PSY3\TD Excel\TD11-ANOVA.XLS

Nous allons tester l'hypothèse "dans les populations parentes, les moyennes des quatre groupes sont différentes" à l'aide d'une analyse de variance.

Dans la panoplie de fonctions d'Excel, il n'existe pas de fonction permettant de faire directement une analyse de variance. Nous allons donc recourir à l'Utilitaire d'Analyse.

Sélectionnez le menu Outils-Utilitaire d'analyse... puis l'item Analyse de variance: un facteur.

Complétez la fenêtre de dialogue comme suit :

Parmi les résultats calculés par Excel, on trouve alors le tableau d'analyse de variance suivant, que l'on comparera à celui figurant sur la fiche de TD :
 
ANALYSE DE VARIANCE
Source des variations
Somme des carrés
Degré de liberté
Moyenne des carrés
F
Probabilité
Valeur critique pour F
Entre Groupes
50,95
3
16,98
7,23
0,28%
3,24
A l'intérieur des groupes
37,6
16
2,35
Total
88,55
19

 

1.2 - Analyse de variance pour un plan S*A

Affichez la feuille de données INHIBIT. Ce cas est décrit dans l'énoncé 51 de la fiche de TD.

Nous allons tester l'hypothèse : "le nombre de paires correctement rappelées dépend de la position ordinale dans la liste" à l'aide d'une analyse de variance. Deux facteurs doivent ici être pris en compte : le facteur "position ordinale" et le facteur "sujet" (car les sujets sont croisés avec l'autre facteur. Remarquez que l'on dispose d'une seule valeur de la variable dépendante pour chaque combinaison des deux facteurs. Pour Excel, il s'agit de deux facteurs sans répétition d'expérience.

Sélectionnez le menu Outils-Utilitaire d'analyse... puis l'item Analyse de variance: deux facteurs sans répétition d'expérience. Complétez la fenêtre de dialogue comme suit :


 


Dans le tableau d'analyse dressé par Excel, seul le rapport F calculé pour les colonnes nous intéresse.
 
ANALYSE DE VARIANCE
Source des variations
Somme des carrés
Degré de liberté
Moyenne des carrés
F
Probabilité
Lignes
52,48
7
7,50
2,63
2,69%
Colonnes
146,85
5
29,37
10,32
3,87E-06
Erreur
99,65
35
2,85
Total
298,98
47

 

1.3 - Analyse de variance pour un plan S<A*B>

Dans le cas d'un plan S<A*B>, on considère les deux facteurs de variation A et B. Le facteur Sujet est assimilé à une mesure répétée dans chaque condition expérimentale.

Affichez la feuille de données TULVING. Ce cas est décrit dans l'énoncé 49 de la fiche de TD. Observez la façon dont les données ont été saisies. Nous allons étudier les différentes hypothèses formulées dans l'énoncé à l'aide d'une analyse de variance. Sélectionnez le menu Outils-Utilitaire d'analyse... puis l'item Analyse de variance: deux facteurs avec répétition d'expérience.

Complétez la fenêtre de dialogue comme suit :

On obtient le tableau d'analyse de variance suivant :
 
ANALYSE DE VARIANCE
Source des variations
Somme des carrés
Degré de liberté
Moyenne des carrés
F
Probabilité
Valeur critique pour F
Echantillon
2080,00
2
1040,00
115,56
3,08E-20
5,02
Colonnes
201,67
1
201,67
22,41
1,63E-05
7,13
Interaction
213,33
2
106,67
11,85
5,40E-05
5,02
A l'intérieur du groupe
486,00
54
9,00
Total
2981,00
59

Ce tableau permet d'apporter des réponses aux hypothèses qui ont été formulées. Mais il faut recourir à d'autres outils pour obtenir sans mal un graphe d'interaction (dont la construction ne pose pourtant pas de difficulté).

2 - Corrélation et régression linéaire

2.1 - Utilisation des fonctions d'Excel

Le fichier W:\PSY3\TD Excel\TD11-RegLin.xls contient des données numériques relatives à 107 sujets.

2.1.1 - Calcul de la covariance et du coefficient de corrélation

Les fonctions utiles ici s'appellent COVARIANCE et COEFFICIENT.CORRELATION. Elles utilisent deux paramètres, les plages désignant les deux variables.

Entrez en G2 puis G3 les formules : =COVARIANCE(B2:B108;C2:C108)

=COEFFICIENT.CORRELATION(B2:B108;C2:C108)

2.1.2 - Calcul des coefficients de la droite de régression

Excel dispose d'une fonction DROITEREG. Comme la fonction FREQUENCE vue dans le TD N°5, cette fonction renvoie plusieurs résultats sous forme d'une matrice. Il s'agit ici des deux coefficients de la droite de régression. Pour calculer ces coefficients :

Sélectionnez la plage de cellules G6:H6

Entrez la formule :

=DROITEREG(C2:C108;B2:B108) Validez en appuyant sur Maj+Ctrl+Entrée
2.1.3 - Calcul des valeurs ajustées

On veut calculer en colonne D les valeurs de la variable Symptômes estimées à partir la régression linéaire qui vient d'être faite.

Entrez en cellule D2 la formule : =B2*$G$6+$H$6 et attardez-vous quelques instants à comprendre pourquoi elle a été rédigée ainsi...

Recopiez ensuite cette formule jusqu'en D108.

2.1.4 - Nuage de points avec ou sans droite de régression

Excel possède également de nombreuses commandes permettant de réaliser différents graphiques. Il est par exemple facile de construire un nuage de points ; un effort supplémentaire permet d'obtenir la droite de régression sur le même dessin.

Construction du nuage de points seul :

Menu Insertion - Graphique. Un assistant démarre.

Premier dialogue : Nuage de points, puis l'icône "points non reliés"

Second dialogue : Plage de données : =Observations!$B$2:$C$108. Série en colonnes

Troisième dialogue : Pas de légende. Titre de l'axe des x : Stress, titre de l'axe des y : symptômes.

Quatrième dialogue : Insérer le graphique sur une nouvelle feuille nommée Nuage de points.

Pour modifier un élément du graphique après avoir terminé la phase de création avec l'assistant, on peut cliquer sur cet élément avec le bouton droit de la souris. Le menu local qui apparaît alors contient des items tels que Format de la série de données... ou Format de l'axe...

Construction du nuage de points et de la droite de régression :

L'idée est de construire sur un même graphique deux nuages de points. Le premier, avec des points non reliés, représente les valeurs observées, le second, dont les points seront reliés, représente les valeurs estimées.

Procédez comme dans le cas du graphique précédent, mais spécifiez =Observations!$B$2:$D$108 comme plage de valeurs. Insérez le graphique dans une nouvelle feuille nommée Nuage et droite.

La droite de régression est alors représentée à l'aide des 107 points correspondant à la colonne D du tableau. Cliquez sur l'un d'entre eux à l'aide du bouton droit, et utilisez le menu Format de la série de données... Dans l'onglet Motifs, modifiez le dialogue en spécifiant : Trait : automatique et Marque : aucune.


 


2.2 - Régression linéaire avec l'utilitaire d'analyse

La situation précédente peut également être traitée par l'utilitaire d'analyse. Pour cela :

Sélectionnez le menu Outils-Utilitaire d'analyse... puis l'item Régression linéaire.

Compléter la fenêtre de dialogue comme suit :

Parmi les (trop) nombreux résultats donnés par Excel, recherchez les coefficients de l'équation de la droite de régression de Y par rapport à X (Y=0.78X+73.89). Consultez également le graphique représentant les nuages de points expérimental et ajusté :

Exercices de monitorat : Reprenez vos fiches de TD de statistiques pour traiter d'autres exercices de test de khi-2, comparaison de moyennes, analyse de variance, régression linéaire.

3 - Monitorat : découvrir Minitab

Excel ne permet pas de traiter des plans d'expérience plus compliqués que ceux qui ont été étudiés ici. En particulier, le traitement d'un plan d'expérience du type S<A>*B nécessite un "vrai" logiciel de traitement statistique, tel que DS3 ou Minitab.

N.B. Ces logiciels ne sont pas installés sur tous les postes. Mais vous les trouverez, notamment, en salle A208.

Nous allons découvrir quelques aspects du logiciel Minitab sur l'énoncé 47 de la fiche de TD de statistiques, qui vous est rappelé ci-dessous.

----------------------------------

LES DONNEES

----------------------------------

On étudie le comportement de 12 groupes de termites placés dans l'une ou l'autre de 2 conditions expérimentales correspondant à deux degrés d'humidité du sable (h1 : sable humide, h2 : sable peu humide). D'où le facteur S à 12 modalités et le facteur Humidité H à 2 modalités. 6 groupes sont placés dans la conditions h1, les 6 autres groupes dans la condition h2. On relève la longueur des galeries creusées durant deux périodes (p1: le jour, p2: la nuit). D'où le facteur Période P à 2 modalités.

----------------------------------

SOURCE

----------------------------------

Catherine Venturelli (1990), La dynamique du creusement chez Reticulitermes santonensis.

----------------------------------

STRUCTURE DES DONNEES

----------------------------------

Il s'agit d'un protocole Univarié (une seule variable numérique: le nombre de centimètres de galeries creusées) avec Groupes Indépendants et Mesures Répétées. Le plan des données peut être ainsi résumé: S6<H2>*P2

Copiez sur votre disquette, votre volume sur le serveur ou le disque E: les deux fichiers W:\PSY3\TD Excel\Termites.MPJ et W:\PSY3\TD Excel\Termites.MTW. Double-cliquez sur votre copie du fichier Termites.MPJ ou chargez le logiciel Minitab (menu Démarrer - Programmes - Minitab 12 - Minitab) et utilisez ensuite le menu Fichier - Ouvrir un projet... pour ouvrir le fichier.

N.B. Un document Minitab se compose de deux fichiers. Le premier (ici Termites.MPJ) est le fichier de projet. Il correspond, grosso modo, à la fenêtre qui occupe le haut de l'écran et mémorise les résultats des traitements. Le second (ici Termites.MTW) est la feuille de travail, qui contient les données;

Observez la façon dont les données ont été saisies :
 



 


Chaque facteur, y compris le facteur Sujet, est représenté par une colonne. La colonne C4 rassemble quant à elle les valeurs observées de la variable dépendante.

Vous pouvez vous initier au fonctionnement du logiciel en effectuant d'abord des traitements statistiques simples. Par exemple, pour calculer la moyenne de la variable score :

- Utilisez le menu Stats - Statistiques élémentaires - Afficher les statistiques descriptives...

- Complétez la fenêtre de dialogue comme suit :

Vous pouvez aussi réaliser une analyse de variance à un facteur portant sur l'un des facteurs H ou P à l'aide du menu Stat - ANOVA - A un facteur contrôlé...

L'analyse de variance que nous nous proposons de faire est un cas particulier du "modèle linéaire généralisé".

- Utilisez le menu Stat - ANOVA - Modèle linéaire généralisé...

- Complétez la fenêtre de dialogue comme suit :

Minitab affiche les résultats dans la fenêtre de session :

Source   DL   SC Séq   SC Ajust   CM Ajust   F      P
H        1   3436.8    3436.8     3436.8     5.94   0.035
S(H)    10   5784.1    5784.1     578.4      2.84   0.057
P        1   9536.1    9536.1     9536.1     46.84  0.000
H*P      1    387.2     387.2      387.2      1.90  0.198
Erreur  10   2035.8    2035.8      203.6
Total   23  21180.0
N.B. Remarquez la manière dont la zone d'édition Modèle a été complétée : on y a indiqué les différentes sources de variation, dans l'ordre où elles doivent apparaître dans le tableau d'analyse de variance. Pour utiliser ce modèle, il faut évidemment connaître la forme du résultat à obtenir.