Jouer avec les données pour mieux les comprendre

J’ai toujours été fasciné par les données en volume important. C’est mon coté statisticien. Mais au-delà de mon appétence pour le quantitatif, je pense que les données ont beaucoup à nous apprendre, à condition de prendre le temps de les analyser.

Toute la difficulté face à une masse importante de données est d’en trouver une représentation synthétique qui nous permettra de “tirer l’aiguille de la botte de foin”. Et c’est vrai pour les “big data” comme pour des ensembles de taille bien plus modeste. Je vais prendre un exemple pour illustrer mon propos.

À l’issue du premier semestre de Master 1, nous avons été soumis à des examens évaluant nos connaissances et compétences fraîchement acquises. On appelle ces examens des “partiels” parce qu’ils arrivent en cours d’année et portent chacun sur une partie bien délimitée du programme. Les résultats de ces partiels ont été compilés par un de mes camarades dans un fichier Excel avec pour but avoué de construire un classement de la promotion. On peut trouver l’objectif un peu puéril, mais il faut noter que les résultats étant anonymisés, en théorie seul l’étudiant muni de son numéro étudiant peut juger de son positionnement par rapportaux autres.

Au-delà des enjeux symboliques du classement, ce qui m’intéressait avec ces données c’était de comprendre qu’est-ce qui amène à se retrouver en haut de classement, en d’autres termes qu’est-ce qui fait de vous un “bon élève” comparativement aux autres.

J’ai donc décidé de les représenter en gardant la forme du tableau (en lignes : les étudiants, en colonnes : les matières) mais en regroupant les notes par classes et en donnant à chaque classe une couleur de bleu plus ou moins foncée selon son rang.

Par exemple, l’étudiant 9724135 a eu une bonne note en CG (Contrôle de Gestion) : 72, mais celle-ci comparativement aux notes des autres dans la même matière ne fait pas partie de la classe A, c’est-à-dire des meilleures, et la couleur de la case n’est donc pas du bleu le plus foncé.

En laissant votre curseur au dessus d’une des cases, vous verrez apparaître la note qui correspond. Je vous laisse apprécier la belle mosaïque qui résulte de ces choix de représentation :

Ce que j’ai conclu de cette représentation, c’est que le “haut du tableau” est composé d’individus qui n’ont pas nécessairement les meilleures notes mais qui par contre n’ont aucune mauvaise note. En d’autres termes, ce sont des étudiants qui ont obtenu de bons résultats dans toutes les matières.