meld et dcast

Le reformatage de tables de données est une activité importante lors de la modélisation de grands jeux de données. Pour cela, mes dernières découvertes sont meld et dcast du package R reshape2 qui permettent de passer de données du format “large” au format “long” et réciproquement, éventuellement en synthétisant des lignes. Voir ici pour une visualisation rapide.

L’idée générale est de différencier trois types d’informations: les informations de référence permettant d’identifier l’individu statistique, les informations de mesure permettant d’identifier différentes mesures réalisées sur chaque individu et les valeurs mesurées elles-mêmes. Les individus correspondent toujours à plusieurs lignes mais les informations de type de mesure peuvent être données soit par différents niveaux dans une colonne + une colonne avec les valeurs de mesure pour toutes les mesures (type de données “long”), soit un titre de colonne par mesure et les mesures correspondantes dans chaque colonne (type de données “large”).

Comments are closed.