Passer au contenu principal
Accéder au tableau de bord
Vous ne savez pas par où commencer ? Répondez à un bref questionnaire pour obtenir des recommandations personnalisées.
Leçon 9 sur 13
Google Sheets : extraire des données d’Internet
Journalisme de données
Autorisations : retracer les données de Google.
Google Trends: comprendre les données.
Google Data GIF Maker
Google Sheets : visualiser des données
Source de données : Global Forest Watch.
Google Sheets : nettoyer des données
Visualiser les données : Tilegrams avancés
Cours
0% terminé
5 minutes pour terminer

Google Sheets : extraire des données d’Internet

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg

Constituez vos ensembles de données grâce à Google Sheets.

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg

Constituez vos bases de données grâce à Google Sheets.

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

Internet met à votre disposition une grande quantité de données que vous pouvez utiliser pour faire des recherches pour vos articles et les visualiser. Trouver les données, et les transformer en un format avec lequel vous pouvez travailler constitue la première étape.

  1. Créer une nouvelle feuille de calcul.
  2. Trouver des données fiables.
  3. Importer des données dans Google Sheets.
  4. Résoudre les problèmes et messages d’erreur. 
  5. Afficher vos données.

Pour plus de leçons de journalisme de données, consultez :

https://newsinitiative.withgoogle.com/training/course/data-journalism


DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

Créer une nouvelle feuille de calcul.

Starting a new spreadsheet.


D’abord, vous devez créer une feuille de calcul vierge. Allez à sheets.google.com. Sous Créer une nouvelle feuille de calcul, cliquez sur l’icône +.


Pour nommer votre feuille de calcul, cliquez sur le texte dans le coin supérieur gauche. Nommons celle-là « Films les plus profitables ».

Trouver des données fiables.

En cherchant vos données sur les sites des gouvernements, dans les publications scientifiques, sur Wikipedia, dans l’Explorateur de données publiques Google et ailleurs, vous pouvez trouver des informations sur pratiquement tous les sujets. Dans cette leçon, nous prendrons en exemple les données sur des films.



Allez à l’adresse google.com et recherchez films les plus profitables. Parmi les premiers liens, vous devriez trouver une entrée Wikipedia avec plusieurs tableaux. Une liste nommée « les 50 films les plus profitables de tous les temps » cite de multiples références, alors nous utiliserons celle-là. Vérifiez toujours que vous obtenez vos données d’une source fiable. 


Pour importer ce tableau dans Google Sheets, copiez l’adresse de la page Wikipedia en surlignant l’URL, en faisant un clic droit dessus et en sélectionnant Copier. 

Importer des données dans Google Sheets.

Nous utiliserons importHTML pour importer le tableau de Wikipedia à notre feuille de calcul. Cette formule puissante est intégrée à Google Sheets pour vous aider à importer des tableaux ou des listes depuis des pages Web. Pour en savoir plus sur importHTML et voir des exemples, lisez les pages de documentation sur Google Sheets.



L’outil importHTML nécessite trois paramètres pour fonctionner : 1) une URL2) le type de données qu’on collecte, à savoir un tableau ou une liste3) le nombre représentant la position du tableau ou de la liste dans le code HTML. Dans cet exemple, la première occurrence d’un tableau porterait le numéro un, puisque le tableau que nous voulons est le premier qui s’affiche dans l’HTML. Vous pouvez faire des essais pour trouver la position du tableau (1, 2, 3, etc.) ou faire un clic droit sur la page Web, sélectionner Examiner > Rechercher pour localiser le tableau dans le code.


Allez à la feuille de calcul vierge que vous avez créée et naviguez vers la cellule A1. Saisissez : =importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "tableau", 1)


Notez que l’URL et le type d’élément (dans notre cas, le tableau) se mettent entre guillemets. Ainsi, les paramètres deviendront verts. Le dernier paramètre est un nombre pas entre guillemets et sera coloré en bleu.

Résolution des problèmes et messages d’erreur.

ScrapingData_Troubleshooting_and_error_messages.jpg

Si vous obtenez un message ERROR!, assurez-vous que les guillemets sont doubles comme dans l’exemple. 


Si vous obtenez un message VALUE!, assurez-vous qu’il n’y a pas de parenthèses ou de guillemets superflus dans la cellule.

ScrapingData_Troubleshooting_and_error_messages.jpg

Afficher vos données.

ScrapingData_Displaying_your_data_mcss7kz.jpg

Une fois que votre formule ImportHTML est correcte, appuyez sur Entrée et laissez quelques secondes à Google Sheets. Le tableau devrait charger avec toutes les lignes et colonnes formatées.  


Notez que certains éléments doivent être supprimés pour pouvoir visualiser les données. Nous apprendrons cette étape à la prochaine leçon « Google Sheets : nettoyer des données »

ScrapingData_Displaying_your_data_mcss7kz.jpg

Félicitations !

CleaningData_Overview_9zSutWO.jpg

Vous avez terminé « Google Sheets : extraire des données d’Internet ».


Pour continuer à développer vos compétences de journalisme numérique et travailler en vue du certificat de Google News Initiative, rendez-vous sur le site Web de notre Centre d’entraînement pour commencer une nouvelle leçon.

Pour plus de leçons de journalisme de données, consultez :

newsinitiative.withgoogle.com/training/course/data-journalism


CleaningData_Overview_9zSutWO.jpg
Félicitations ! Vous venez de terminer Google Sheets : extraire des données d’Internet Oui, c'est en cours
Recommandations personnalisées
Quelle note donneriez-vous à cette leçon ?
Vos commentaires nous aident à améliorer nos leçons en permanence.
Quitter et perdre la progression ?
Si vous quittez cette page, vous perdrez votre progression dans la leçon en cours. Voulez-vous vraiment continuer et perdre votre progression ?