Google Sheets : nettoyer des données
Préparez vos données à l’analyse et à la visualisation.
Aperçu de la leçon
Apprenez à nettoyer des données en vue de leur visualisation.
Dans la leçon précédente, Google Sheets : extraire des données d’Internet, nous avons appris comment importer un tableau du Web grâce à importHTML. Dans cette leçon, nous allons apprendre à nettoyer les données pour qu’elles soient prêtes à l’analyse et à la visualisation.
- Rendre les données modifiables.
- Modifier les données.
- Éditer par lots avec Chercher et remplacer.
Pour plus de leçons de journalisme de données, consultez :
newsinitiative.withgoogle.com/training/course/data-journalism
Rendre les données modifiables.
« Nettoyer des données » signifie les rendre utilisables pour travailler dessus, c’est-à-dire s’assurer que le tableau est intègre, exempt d’incohérences et structuré d’une manière compréhensible par les ordinateurs. Il s’agira donc de supprimer les lignes doubles ainsi que les caractères superflus, de s’assurer que les colonnes ne contiennent qu’un seul type de données, par exemple des nombres ou du texte, mais pas les deux. D’abord, nous devons rendre les données modifiables.
Ce tableau montre le résultat de importHTML. Dans ce formulaire, tous les changements apportés à la source des données (la page Wikipedia) seront reflétés ici automatiquement, et ils sont mis à jour au moins une fois par heure. Cependant, nous ne pouvons pas modifier les valeurs dans les cellules pour supprimer les caractères superflus. Nous utiliserons le Collage spécial dans Google Sheets pour créer un aperçu statique des données. Ainsi, nous ne pourrons plus mettre à jour automatiquement le tableau par ImportHTML, mais nous pourrons le modifier.
Sélectionnez toutes les données en cliquant sur le rectangle en haut à gauche de votre feuille de calcul. Une fois que toutes les cellules sont surlignées, cliquez sur Modifier > Copier. Sélectionnez Modifier > Collage spécial > Coller uniquement les valeurs. Nous pouvons désormais modifier le tableau.
Pour faciliter les modifications, nous allons geler la ligne contenant les noms des colonnes. Passez votre curseur sur la ligne juste au-dessus de la ligne 1 sur la barre grise. Vous remarquerez que votre curseur se transforme en gant. Faites glisser la barre en bas de la ligne 1 et laissez-la là. Maintenant, la première ligne est gelée.
Modifier les données.
importHTML importera les caractères restant du tableau Wikipedia qui sont utiles pour les humains, mais pas pour les ordinateurs. Supprimons-les pour nettoyer notre tableau !
Comme nous n’avons pas besoin de la colonne F pour cet exercice, faites un clic droit sur la lettre F en haut de la colonne et sélectionnez Supprimer.
Il y a une lettre « F » à côté du chiffre 13 dans la cellule A14, et un « TS3 » à côté du chiffre 4 dans la cellule B27. Nous supprimerons ces caractères pour que seuls les chiffres 13 et 4 restent.
Supprimez les lettres supplémentaires des cellules B40 et B48, de sorte que seuls le 19 et le 8 restent. Faites la même chose en D17 pour supprimer le « F8 ».
Éditer par lots avec Chercher et remplacer.
Maintenant, regardons la colonne C. Supprimons les premiers et derniers caractères * tout d’un coup plutôt que de le faire ligne par ligne, grâce à la fonction Chercher et remplacer.
Sélectionnez la colonne C en cliquant sur la lettre C en haut de la colonne. Sélectionnez Modifier > Chercher et remplacer.
Dans la première boîte de texte, entrez le symbole de l’astérisque : * (c’est le caractère qu’on veut trouver dans la colonne C). Laissez la boîte de texte Remplacer par vide pour que les astérisques ne soient remplacées par rien, et donc supprimées.
Veillez à ce que l’option Rechercher soit réglée sur Intervalle spécifique et que l’intervalle corresponde à la colonne que vous venez de sélectionner. Laissez les cases à cocher désélectionnées.
Sélectionnez Remplacer tout.Google Sheets affichera que 100 occurrences de * remplacées par (rien), ce qui signifie que vous avez réussi à supprimer 100 caractères dans 50 lignes en quelques clics !
Sélectionnez Terminé. Notre tableau est maintenant nettoyé et nous pouvons travailler dessus. Dans la prochaine leçon, nous produirons des visualisations et obtiendrons des aperçus des données.
Félicitations !
Vous avez terminé « Google Sheets : nettoyer des données ».
Pour continuer à développer vos compétences de journalisme numérique et travailler en vue du certificat de Google News Initiative, rendez-vous sur le site Web de notre Centre d’entraînement pour commencer une nouvelle leçon :
Pour plus de leçons de journalisme de données, consultez :
newsinitiative.withgoogle.com/training/course/data-journalism
-
Global Fishing Watch : Surveillez les flottes et navires de pêche
LeçonUn guide d’utilisation de l’outil de cartographie de Global Fishing Watch pour surveiller l’activité de pêche mondiale. -
-
Témoignages de recherche et d’enquête fondées sur le Machine Learning
LeçonComment utiliser le Machine Learning (apprentissage automatique) dans vos reportages ?