Google Sheets : extraire des données d’Internet
Constituez vos ensembles de données grâce à Google Sheets.
Constituez vos bases de données grâce à Google Sheets.
Internet met à votre disposition une grande quantité de données que vous pouvez utiliser pour faire des recherches pour vos articles et les visualiser. Trouver les données, et les transformer en un format avec lequel vous pouvez travailler constitue la première étape.
- Créer une nouvelle feuille de calcul.
- Trouver des données fiables.
- Importer des données dans Google Sheets.
- Résoudre les problèmes et messages d’erreur.
- Afficher vos données.
Pour plus de leçons de journalisme de données, consultez :
https://newsinitiative.withgoogle.com/training/course/data-journalism
Créer une nouvelle feuille de calcul.
Starting a new spreadsheet.
D’abord, vous devez créer une feuille de calcul vierge. Allez à sheets.google.com. Sous Créer une nouvelle feuille de calcul, cliquez sur l’icône +.
Pour nommer votre feuille de calcul, cliquez sur le texte dans le coin supérieur gauche. Nommons celle-là « Films les plus profitables ».
Trouver des données fiables.
En cherchant vos données sur les sites des gouvernements, dans les publications scientifiques, sur Wikipedia, dans l’Explorateur de données publiques Google et ailleurs, vous pouvez trouver des informations sur pratiquement tous les sujets. Dans cette leçon, nous prendrons en exemple les données sur des films.
Allez à l’adresse google.com et recherchez films les plus profitables. Parmi les premiers liens, vous devriez trouver une entrée Wikipedia avec plusieurs tableaux. Une liste nommée « les 50 films les plus profitables de tous les temps » cite de multiples références, alors nous utiliserons celle-là. Vérifiez toujours que vous obtenez vos données d’une source fiable.
Pour importer ce tableau dans Google Sheets, copiez l’adresse de la page Wikipedia en surlignant l’URL, en faisant un clic droit dessus et en sélectionnant Copier.
Importer des données dans Google Sheets.
Nous utiliserons importHTML pour importer le tableau de Wikipedia à notre feuille de calcul. Cette formule puissante est intégrée à Google Sheets pour vous aider à importer des tableaux ou des listes depuis des pages Web. Pour en savoir plus sur importHTML et voir des exemples, lisez les pages de documentation sur Google Sheets.
L’outil importHTML nécessite trois paramètres pour fonctionner : 1) une URL2) le type de données qu’on collecte, à savoir un tableau ou une liste3) le nombre représentant la position du tableau ou de la liste dans le code HTML. Dans cet exemple, la première occurrence d’un tableau porterait le numéro un, puisque le tableau que nous voulons est le premier qui s’affiche dans l’HTML. Vous pouvez faire des essais pour trouver la position du tableau (1, 2, 3, etc.) ou faire un clic droit sur la page Web, sélectionner Examiner > Rechercher pour localiser le tableau dans le code.
Allez à la feuille de calcul vierge que vous avez créée et naviguez vers la cellule A1. Saisissez : =importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "tableau", 1)
Notez que l’URL et le type d’élément (dans notre cas, le tableau) se mettent entre guillemets. Ainsi, les paramètres deviendront verts. Le dernier paramètre est un nombre pas entre guillemets et sera coloré en bleu.
Résolution des problèmes et messages d’erreur.
Si vous obtenez un message ERROR!, assurez-vous que les guillemets sont doubles comme dans l’exemple.
Si vous obtenez un message VALUE!, assurez-vous qu’il n’y a pas de parenthèses ou de guillemets superflus dans la cellule.
Afficher vos données.
Une fois que votre formule ImportHTML est correcte, appuyez sur Entrée et laissez quelques secondes à Google Sheets. Le tableau devrait charger avec toutes les lignes et colonnes formatées.
Notez que certains éléments doivent être supprimés pour pouvoir visualiser les données. Nous apprendrons cette étape à la prochaine leçon « Google Sheets : nettoyer des données »
Félicitations !
Vous avez terminé « Google Sheets : extraire des données d’Internet ».
Pour continuer à développer vos compétences de journalisme numérique et travailler en vue du certificat de Google News Initiative, rendez-vous sur le site Web de notre Centre d’entraînement pour commencer une nouvelle leçon.
Pour plus de leçons de journalisme de données, consultez :
newsinitiative.withgoogle.com/training/course/data-journalism
-
-
-
Google Podcasts Manager
LeçonMieux comprendre votre audience et l’atteindre à travers les produits Google.