Témoignages de recherche et d’enquête fondées sur le Machine Learning
Comment utiliser le Machine Learning (apprentissage automatique) dans vos reportages ?
Le Machine Learning pour la recherche et les enquêtes : une étude de cas.
En 2010, le prix de l’ambre sur le marché mondial a commencé à monter en flèche. En raison de la forte demande, dans les années suivantes, certaines régions du nord-ouest de l’Ukraine, riches en gisement d’ambre, ont attiré l’attention des marchés étrangers et locaux, et sont devenues le théâtre d’une « ruée vers l’ambre » illégale, un nouveau « Far West ».
Des centaines d’hectares de forêts et de terres agricoles ont été transformés en un paysage lunaire dépourvu de toute vie, l’activité minière la plus intense ayant lieu entre 2014 et 2016 mais se poursuivant les années suivantes.
Leprosy of the Land, la Lèpre de la terre, une enquête de Texty
En 2018, l’agence ukrainienne de datajournalisme Texty a publié Leprosy of the Land, ou la "Lèpre de la terre" en français, une enquête dans laquelle elle a utilisé des techniques de Machine Learning (apprentissage automatique) pour détecter des cas d’extraction illégale d’ambre dans toute l’Ukraine.
Tout d’abord, un algorithme a divisé des sections d’images satellites en sous-sections visuellement uniformes. Ainsi, si une image était moitié forêt verte et moitié champ de terre, elle était divisée en ces deux sous-sections.
Un autre algorithme a trouvé les sous-sections qui ressemblaient le plus aux exemples existants d’extraction d’ambre, qui présentent un motif de trous dans le sol ressemblant à une marque de poche.
Enfin, les journalistes ont examiné les exemples trouvés par l’algorithme, pour s’assurer que ce qui ressemblait à de l’extraction d’ambre n’était pas en fait autre chose, comme la déforestation.
Trouver des exemples d’exploitation illégale de l’ambre
Dans ce cours, nous nous concentrerons sur les méthodes utilisées par Texty pour former un algorithme permettant de reconnaître des exemples visuels d’extraction illégale d’ambre dans une énorme quantité d’images satellites, préalablement divisées en sous-sections par un autre algorithme.
Comme mentionné dans la première leçon, nous allons donc expérimenter l’apprentissage supervisé. Vous apprendrez comment l’algorithme peut apprendre, à partir d’exemples étiquetés, à reconnaître le même motif dans des images qu’il n’a jamais vues auparavant.
Vous apprendrez également comment reproduire le processus pour vos propres témoignages ou récits : de la recherche des exemples dont vous avez besoin, à la formation d’un modèle d’apprentissage-machine pour satisfaire votre recherche, puis au test et à l’évaluation du modèle visant à s’assurer qu’il produit des résultats fiables.
Le ML est-il l’outil idéal pour ce problème ?
Mais pourquoi le Machine Learning (apprentissage automatique) était-il l’outil par excellence pour trouver l’information recherchée par Texty ?
La programmation classique exige que vous spécifiiez des instructions étape par étape à suivre par l’ordinateur. Si cette approche permet de résoudre une grande variété de problèmes, elle n’est pas à la hauteur pour reconnaître des exemples d’exploitation illégale de l’ambre dans une énorme quantité d’images satellites. Il existe tant d’éléments visuels que l’ordinateur devrait prendre en compte, qu’il est impossible de proposer un ensemble de règles étape par étape, capable d’apprendre au logiciel à distinguer les exemples réels d’extraction illégale d’ambre des éléments qui pourraient simplement lui ressembler.
Heureusement, les systèmes de Machine Learning permettent de résoudre ce problème.
Focus sur le processus
Gardez à l’esprit que ce que vous apprendrez dans ce cours - comment repérer l’extraction illégale de l’ambre - ne constitue qu’un exemple. Selon le même processus, l’apprentissage-machine permettrait de réaliser un certain nombre de tâches journalistiques diverses et pourrait même être appliqué à l’analyse de différents types de contenu, et pas seulement des images. Nous verrons d’autres cas d’utilisation à la fin du cours. Au fil de l’exercice, n’oubliez pas de vous concentrer sur le processus plutôt que sur l’étude de cas spécifique.
Avant de commencer l’exercice proprement dit, consacrons quelques minutes à la réunion et à la mise en place de l’outil que nous apprendrons à utiliser dans les prochaines leçons : Google Cloud AutoML Vision.
-
Développer votre audience avec Google Analytics 4
LeçonDécouvrez comment Google Analytics 4 fonctionne pour mieux analyser votre audience. -
-
Vérification : recherche d’image inversée avancée
LeçonComment distinguer les comptes de témoins oculaires authentiques du contenu erroné.