PSY38X2 : Traitement de données en Psychologie - TD N1

Corrélation et régression linéaires

Utilisation d'un logiciel de traitement statistique : Minitab

 

 

 

1) Qu'est-ce que Minitab ?

Minitab est un logiciel de traitements statistiques. A la différence de progiciels tels que Word ou Excel (progiciels de fonction), Minitab est dédié à une tâche bien précise : le traitement de données statistiques. Il en résulte que son utilisation pose peu de problèmes conceptuels au niveau informatique... et de nombreux problèmes d'ordre statistique, d'autant que le nombre et la variété des méthodes proposées peuvent dérouter certains...

Comparé à d'autres produits analogues, Minitab est un logiciel complet et puissant. En revanche, il n'est pas toujours simple de se guider dans les menus des différents traitements proposés et dans leurs options.

1.1 L'espace de travail de Minitab

Au démarrage, l'écran se compose d'une fenêtre "Feuille de travail" et d'une fenêtre "Session". D'autres fenêtres peuvent être affichées à la demande : par exemple les fenêtres "Informations" et "Historique".

 

La fenêtre "Feuille de travail" sert essentiellement à saisir les données qui feront l'objet de traitement. La fenêtre "Session" affiche les résultats des traitements. D'autres fenêtres pourront être créées en cours de travail : fenêtres graphiques, autres feuilles de données, etc.

 

1.2 Enregistrement de vos fichiers, ouvrir un nouveau document

Déroulez le menu Fichier. Vous constatez que Minitab gère principalement deux types de documents : les projets et les feuilles de travail. Le fichier créé par la commande Enregistrer le projet contient à la fois la feuille de travail (variables saisies ou calculées), le contenu de la fenêtre session, les graphiques, etc. C'est la commande que nous utiliserons.

De même, l'item Fichier - Nouveau... propose le choix entre une nouvelle feuille de travail et un nouveau projet. c'est ce dernier item qu'il faut généralement choisir.

2) Statistiques descriptives. Corrélation et régression

2.1. Enoncé d'un cas :

Dans une expérience de perception, on étudie l'évaluation des longueurs de figures géométriques. Le sujet est invité à évaluer les longueurs des figures, en s'aidant d'une figure de référence dont il connaît la longueur (9 cm).

 

Dans la condition 1, les figures sont 11 bâtonnets. Les données recueillies pour un sujet sont les suivantes :

Longueur 2.5 4.6 6.3 7.6 8.5 9.0 9.5 10.4 11.7 13.4 15.5
Eval. long. 2.8 4.4 6.2 7.8 8.2 9.0 9.6 10.6 12.0 13.6 15.2

 

Dans la condition 2, les figures sont des cercles de périmètres égaux aux longueurs des bâtonnets de la condition 1. L'évaluation du périmètre par un sujet est alors la suivante :

Périmètre 2.5 4.6 6.3 7.6 8.5 9.0 9.5 10.4 11.7 13.4 15.5
Eval. périm. 1.8 3.6 5.8 7.2 8.4 9.0 9.8 11.0 13.2 16.1 21

 

Ouvrir un nouveau projet Minitab et saisir les données dans quatre variables : Longueur, Eval. Longueur, Périmètre, Eval. Périm. La troisième pourra évidemment être recopiée à partir de la première.

 

2.2 Statistiques descriptives

Calculer les paramètres de statistiques descriptives des 4 variables (menu Stat - Statistiques Elémentaires - Afficher les statistiques descriptives).

 

2.3 Représentations graphiques

 

Réaliser un histogramme pour la variable "Longueur". On choisira un découpage en 4 classes.

(Menu Graphiques - Histogramme, puis le bouton Options et enfin dans le groupe de réglages "Définition des intervalles", indiquer : Nombre d'intervalles = 4.

2.4 Covariance et coefficient de corrélation

 

Les méthodes de corrélation et de régression linéaires sont bien adaptées à l'étude de la situation proposée. Calculer les covariances et les coefficients de corrélation des couples (Longueur, Eval. Long.) d'une part, (Périmètre, Eval. Périmètre) d'autre part. Utiliser pour cela les menus Stat - Statistiques Elémentaires - Covariance... et Stat - Statistiques Elémentaires - Corrélation.

Remarquer que, pour la covariance, Minitab fournit un résultat du type suivant :

Autrement dit, Minitab calcule les covariances de tous les couples de variables formés à partir des variables fournies, la covariance du couple (Longueur, Longueur), par exemple étant, bien entendu, la variance de la variable Longueur.

 

2.5 Régression linéaire

 

On souhaite étudier si la variable Périmètre est un bon prédicteur de la variable Eval-Périm. Pour cela, on va rechercher une équation de la droite de régression de Eval-Périm. par rapport à Périmètre :

Menu Stat - Régression -Régression ...

 

 

On obtient ainsi comme équation de régression :

Le menu Stat - Régression - Droite d'ajustement... permet d'obtenir le nuage de point et la droite d'ajustement sur un graphique

Pour les variables Longueur et Eval. Long., on souhaite étudier si le modèle

Eval. Long = Longueur

constitue un bon modèle des données observées. Pour cela, on va rechercher une équation de la droite de régression de Eval. Long. par rapport à Longueur en imposant à cette droite de passer par l'origine :

Menu Stat - Régression -Régression ...

 

 

Ouvrir le dialogue Options... et désactiver la case "Ajuster l'ordonnée à l'origine".

 

On obtient ainsi comme équation de régression :

Eval. Long. = 1.00 Longueur.

Le menu Stat - Régression - Droite d'ajustement... permet d'obtenir le nuage de point et la droite d'ajustement sur un graphique (mais il ne s'agit plus exactement de la droite "passant par l'origine") :

 

Voir la correction de cet exercice ici.

3) Corrélation et régression linéaire avec Excel

3.1 - Utilisation des fonctions d'Excel

3.1.1 Enoncé du cas

Wagner, Compas et Howell (1988) ont étudié la relation entre le stress et la santé mentale chez des universitaires de première année. A l'aide d'une échelle qu'ils ont mise au point, ils mesurent le stress perçu par le sujet dans son cadre social et son environnement. Ils ont également demandé aux étudiants de remplir la liste de contrôle d'Hopkins qui évalue la présence ou l'absence de 57 symptômes psychologiques

Le fichier W:\PSY3\PSY38X2\Wagner.xls contient des données numériques relatives à 107 sujets. Voir aussi la correction.

3.1.2 Calcul de la covariance et du coefficient de corrélation

Les fonctions utiles ici s'appellent COVARIANCE et COEFFICIENT.CORRELATION. Elles utilisent deux paramètres, les plages désignant les deux variables.

3.1.3 Calcul des coefficients de la droite de régression

Excel dispose d'une fonction DROITEREG. Comme la fonction FREQUENCE vue dans le TD N5, cette fonction renvoie plusieurs résultats sous forme d'une matrice. Il s'agit ici des deux coefficients de la droite de régression. Pour calculer ces coefficients :

3.1.4 Calcul des valeurs ajustées

On veut calculer en colonne D les valeurs de la variable Symptômes estimées à partir la régression linéaire qui vient d'être faite.

3.1.5 Nuage de points avec ou sans droite de régression

Excel possède également de nombreuses commandes permettant de réaliser différents graphiques. Il est par exemple facile de construire un nuage de points ; un effort supplémentaire permet d'obtenir la droite de régression sur le même dessin.

Construction du nuage de points seul :

Pour modifier un élément du graphique après avoir terminé la phase de création avec l'assistant, on peut cliquer sur cet élément avec le bouton droit de la souris. Le menu local qui apparaît alors contient des items tels que Format de la série de données... ou Format de l'axe...

Construction du nuage de points et de la droite de régression :

L'idée est de construire sur un même graphique deux nuages de points. Le premier, avec des points non reliés, représente les valeurs observées, le second, dont les points seront reliés, représente les valeurs estimées.

3.2 - Régression linéaire avec l'utilitaire d'analyse

La situation précédente peut également être traitée par l'utilitaire d'analyse. Pour cela :

Parmi les (trop) nombreux résultats donnés par Excel, recherchez les coefficients de l'équation de la droite de régression de Y par rapport à X (Y=0.78X+73.89). Consultez également le graphique représentant les nuages de points expérimental et ajusté.

4) Corrélation et régression linéaire avec OpenOffice Calc

4.1 Enoncé du cas

Wagner, Compas et Howell (1988) ont étudié la relation entre le stress et la santé mentale chez des universitaires de première année. A l'aide d'une échelle qu'ils ont mise au point, ils mesurent le stress perçu par le sujet dans son cadre social et son environnement. Ils ont également demandé aux étudiants de remplir la liste de contrôle d'Hopkins qui évalue la présence ou l'absence de 57 symptômes psychologiques

Le fichier W:\PSY3\PSY38X2\Wagner.sxc contient des données numériques relatives à 107 sujets. Voir aussi la correction.

4.2 Présentation d'OpenOffice Calc

On se reportera aux polycopiés du premier semestre pour consulter la présentation générale d'OpenOffice et les instructions d'installation sur chaque compte utilisateur. Le tableur d'OpenOffice, que nous allons maintenant utiliser, fonctionne de manière très similaire à Excel : document sous forme de classeur, lignes et colonnes de la feuille de calcul repérées respectivement par des nombres et des lettres, etc.

Comme pour Excel, une formule commence par le signe =. L'auto-pilote de fonctions est l'analogue de l'assistant fonction d'Excel. En cours de composition de formule, il est activé en cliquant sur l'icône suivante de la barre de formules :

4.3 Calcul de la covariance et du coefficient de corrélation

Les fonctions utiles ici s'appellent COVARIANCE et COEFFICIENT.CORRELATION. Elles utilisent deux paramètres, les plages désignant les deux variables.

4.4 Calcul des coefficients de la droite de régression

OOCalc dispose d'une fonction DROITEREG. Comme la fonction FREQUENCE d'Excel vue au premier semestre, cette fonction renvoie plusieurs résultats sous forme d'une matrice. Il s'agit ici des deux coefficients de la droite de régression. Pour calculer ces coefficients :

Notez que l'on peut aussi utiliser l'auto-pilote de fonctions, à condition de cocher la case Matrice dans la fenêtre de dialogue de l'auto-pilote, et de chercher la fonction dans la catégorie Matrice.

 

Remarque : Les coefficients a et b de l'équation Y=aX+b de la droite de régression peuvent aussi être obtenus respectivement à l'aide des fonctions PENTE et ORDONNEE.ORIGINE. Pour calculer ces coefficients :

4.5 Calcul des valeurs ajustées

On veut calculer en colonne D les valeurs de la variable Symptômes estimées à partir la régression linéaire qui vient d'être faite.

4.6 Nuage de points avec ou sans droite de régression

OOCalc possède également de nombreuses commandes permettant de réaliser différents graphiques. Il est par exemple facile de construire un nuage de points avec ou sans la droite de régression

.

Construction du nuage de points seul :

Pour modifier un élément du graphique après avoir terminé la phase de création avec l'assistant, on peut double-cliquer sur cet élément.

 

Construction du nuage de points et de la droite de régression :

 

Reprendre le graphique précédent. Double-cliquez sur l'un des points. Le dialogue "Série de données" s'affiche alors. Affichez l'onglet Statistique et sélectionnez l'item Régression linéaire.

On obtient ainsi la figure suivante :

 

5) Corrélation et régression linéaires à plusieurs variables

Les tableurs ne sont guère adaptés aux traitements de la régression linéaire multiple. Nous reviendrons donc à Minitab pour traiter cette partie.

5.1 Coefficient de corrélation multiple, hyperplan de régression

Ouvrir le fichier W:\PSY3\PSY38X2\Eval-Cours.MPJ. Il rassemble les données figurant dans l'exercice 5 des fiches de TD de Statistiques. L'énoncé accompagnant ces données est rappelé au début de la fenêtre Session.

 

5.2 Calcul des coefficients de corrélation partielle

On veut calculer le coefficient de corrélation partielle entre la variable Qual-Glob et la variable Pédagogie. Nous allons procéder en trois étapes :

 

Déterminez les résidus de la régression de la variable Qual-Glob par rapport aux 4 autres variables (Examen, Connaissance, Résultat, Inscription). Utilisez pour cela le menu Stats-Régression-Régression et utilisez le bouton Stockage et cochez l'item Valeurs résiduelles.

Les résidus de cette régression sont stockés dans la première colonne libre (variable RESI1).

 

Déterminez de même les résidus de la régression de la variable Pédagogie par rapport aux 4 autres variables, et stockez les dans une colonne RESI2.

 

Calculez enfin le coefficient de corrélation entre les variables RESI1 et RESI2 (menu Stats - Stats Elémentaires - Corrélation...). Vous devriez retrouver le résultat du polycopié, à savoir : r=0,65.

Corrigé : voir le fichier Eval-cours-correction.MPJ.

5.3 Exercice de Monitorat

 

Le fichier W:\PSY3\PSY38X2\Tailles.MPJ rassemble les données de l'exercice 4 de la fiche de TD de statistiques.

 

Utilisez le menu Graphique - Graphique 3D... pour représenter le nuage de points dans l'espace :

 

Calculer les paramètres de statistiques descriptives de chacune des trois séries de données, puis les covariances des variables prises deux à deux.

Déterminer l'équation du plan de régression de la variable Z par rapport aux variables X et Y.

Calculer le coefficient de corrélation global.

Donner la prédiction de la taille Z lorsque X=188 et Y=171.

A l'aide des items de menu Copier et Coller, transférez les résultats obtenus dans Word et rédigez un rapport de l'étude qui a été faite.

N.B. Les résultats obtenus pourront être comparés à ceux fournis en réponse dans la fiche de TD de statistiques.

 

6) D'autres traitements statistiques avec Minitab

6.1 Comparaison de moyennes avec Minitab

Ouvrir le fichier W:\PSY3\PSY38X2\Loftus.MPJ. Ce fichier contient les données de l'exercice N 14 de la fiche de TD de statistiques. Une partie de l'énoncé est fournie au début de la fenêtre "Session".

Observez la façon dont les données ont été saisies : nous aurons besoin des deux premières colonnes pour faire une analyse de variance à un facteur, et des autres colonnes pour faire des comparaisons de moyennes ou de variances.

 

A l'aide du menu Stat - Statistiques élémentaires - Test t à 2 échantillons..., comparer les moyennes

des résultats obtenus avec HIT et des résultats obtenus avec SMASH.

Activez la boîte à cocher "Assumer des variances égales". Choisissez également l'un des item de la liste déroulante "Alternative" selon le type de test (unilatéral ou bilatéral) souhaité.

Affichez également le dialogue "Graphiques" et demandez l'affichage d'un graphique de type "Boîte à moustaches".

 

Minitab fournit le résultat suivant :

mu du test t HIT = mu SMASH (en fonction de non =): T = -3.26 P = 0.0043 DL = 18

Les deux utilisent Ecart-type de regroupement = 7.88

 

De cette phrase - pas forcément claire -, on retiendra que Tobs= -3.26, ce qui correspond à un niveau de significativité de 0.43% pour un test bilatéral. Rappelez-vous le lien qui existe entre niveau de significativité et seuil :

Interprétez également le graphique produit par Minitab.

 

Remarque. Essayez également d'exécuter le test sans activer l'option "variances égales". Dans ce cas, la valeur de la statistique observée est la même. En revanche, le nombre de degrés de liberté est alors de 15.

 

6.2 Test du khi-2

Lors de l'analyse des réponses à un questionnaire, on a obtenu par tri croisé le tableau de contingence suivant :

 

  Accord Désaccord
Hommes 139 42
Femmes 158 27

 

Saisissez ce tableau de contingence dans trois colonnes d'une feuille de calcul Minitab.

N.B. La première de ces colonnes sera de type "texte". Les deux autres, de type numérique, seront nommées Accord et Désaccord :

 

 

Utilisez le menu Stat - Tableaux - Test du khi deux pour effectuer un test du khi-2 sur ce tableau de contingence. Vous devriez obtenir :

 

Interprétez les résultats obtenus.