Vai ai contenuti principali
Vai alla dashboard
Non sai da dove iniziare? Rispondi a un breve quiz per ricevere consigli personalizzati.
Welcome to the Google News Initiative
The Google News Initiative works with publishers and journalists to fight misinformation, share resources, and build a diverse and innovative news ecosystem.
Lezione 4 di 7
Preparazione dei dati
Hands-on Machine Learning
Che cos'è il Machine Learning?
Indagare con il Machine Learning
Google Cloud AutoML Vision
Preparazione dei dati
Allena il tuo modello di Machine Learning
Valutazione e test
check_box_outline_blank Manuale pratico di Machine Learning: fai il Quiz!
Corso
0% completata
5 minuti per completare

Preparazione dei dati

image12_3.png
Fai una prima valutazione del tuo caso concreto, della fonte e prepara i tuoi dati
image12_3.png

Cosa sono i training data?

image12_3_zA6aI42.png

Se hai configurato correttamente il tuo account Google Cloud, ora puoi proseguire con l’esercizio. In questa lezione apprenderai quali domande farti durante la raccolta dei dati per il training o addestramento dell'algoritmo e come prepararli per l'utilizzo da parte di AutoML Vision.

Per training data intendiamo esempi, scelti da noi, che il modello ML può riconoscere e classificare. Nel nostro caso, ciò significa fornire una serie di immagini satellitari e dire all'algoritmo quali immagini sono esempi di estrazione dell'ambra e quali no.

image12_3_zA6aI42.png

Inizia dal tuo caso concreto

image40_2.png

Quando componi il set di dati, inizia sempre dal problema che stai chiedendo al ML di aiutarti a risolvere. Prendi in considerazione le domande che seguono:


  1. Qual è il risultato che stai cercando di ottenere?
  2. Quali tipi di categorie andrebbero riconosciute per ottenere questo risultato?
  3. È possibile per gli esseri umani riconoscere queste categorie? Sebbene AutoML Vision possa gestire molte più immagini e categorie rispetto agli umani, se un umano non è in grado di riconoscere una categoria specifica, anche AutoML Vision avrà delle difficoltà.
  4. Quali tipi di esempi rifletterebbero meglio il tipo e la gamma di dati che il sistema classificherà?


Pensa all'inchiesta che stai realizzando. In che modo le risposte a queste domande cambiano il tuo approccio? Serve davvero il Machine Learning?


image40_2.png

Valuta il tuo caso concreto

image5_3.png

Per quanto riguarda il nostro caso, le risposte potrebbero essere quelle di seguito elencate:

  1. Vogliamo che il nostro modello sia in grado di riconoscere i casi di estrazione dell'ambra nelle immagini satellitari che gli presenteremo.
  2. Abbiamo bisogno di due sole categorie: "SÌ: questa immagine include elementi visivi coerenti con i modelli che di solito mostrano l'attività di estrazione dell'ambra" e "NO: questa immagine non include elementi visivi che suggeriscono l'attività di estrazione dell'ambra".
  3. Per lo più, sì: i casi di estrazione dell'ambra sono abbastanza riconoscibili nelle immagini satellitari a causa del caratteristico modello di buchi nel terreno. Nella fase di test vedremo, però, che potrebbe non essere sempre così facile come pensiamo.
  4. Sfondo diverso, diversa densità dei fori, diversi colori. Più diversi sono gli esempi nel nostro set di dati, migliore sarà l'apprendimento dell'algoritmo.
image5_3.png

La fonte dei tuoi dati

image17_3.png

Dopo aver stabilito di quali dati hai bisogno, il passaggio successivo consiste nel trovare un modo per reperirli. Nel nostro caso, disponiamo già del set di dati fornito da Texty. Ma se non avessi già a disposizione i dati per il training dovresti chiederti: come e dove posso reperire le immagini di cui ho bisogno?


Potresti ottenerli da un'azienda, da un ente o da soggetti terzi: in qualunque caso, assicurarti di leggere le norme sulla protezione dei dati in vigore nel tuo paese e nei luoghi in cui la richiesta verrà elaborata.


Sebbene nessun dato per l'addestramento sarà mai perfettamente "imparziale", potrai migliorare notevolmente le tue possibilità di costruire un modello equo se consideri attentamente le potenziali fonti di parzialità o bias nei tuoi dati e prendi provvedimenti per affrontarle. Per ulteriori informazioni, consulta la nostra  Introduzione al Machine Learning.

image17_3.png

Prepara i tuoi dati

image50_2.png

Quando si raccolgono i dati per l'addestramento di un algoritmo, ci sono alcune altre cose da prendere in considerazione:


Includi un numero sufficiente di esempi etichettati in ciascuna categoria: il minimo richiesto da AutoML Vision è di 100 esempi per etichetta. In generale, maggiore sarà la quantità di immagini etichettate che potrai fornire al processo di addestramento, migliore sarà il tuo modello.


È importante includere quantità più o meno simili di esempi per ciascuna categoria. Se disponi di molteplici dati per un'etichetta, utilizzane solo una parte, questo per evitare di avere una quantità di esempi molto diversa per categoria.


Trova immagini che siano visivamente simili a ciò che intendi far classificare al modello. Idealmente, gli esempi che fornisci dovrebbero provenire dal mondo reale, tratti dallo stesso set di dati che prevedi di utilizzare nel tuo modello per la classificazione.

image50_2.png
Leave and lose progress?
By leaving this page you will lose all progress on your current lesson. Are you sure you want to continue and lose your progress?