Preparazione dei dati
Fai una prima valutazione del tuo caso concreto, della fonte e prepara i tuoi dati
Cosa sono i training data?
Se hai configurato correttamente il tuo account Google Cloud, ora puoi proseguire con l’esercizio. In questa lezione apprenderai quali domande farti durante la raccolta dei dati per il training o addestramento dell'algoritmo e come prepararli per l'utilizzo da parte di AutoML Vision.
Per training data intendiamo esempi, scelti da noi, che il modello ML può riconoscere e classificare. Nel nostro caso, ciò significa fornire una serie di immagini satellitari e dire all'algoritmo quali immagini sono esempi di estrazione dell'ambra e quali no.
Inizia dal tuo caso concreto
Quando componi il set di dati, inizia sempre dal problema che stai chiedendo al ML di aiutarti a risolvere. Prendi in considerazione le domande che seguono:
- Qual è il risultato che stai cercando di ottenere?
- Quali tipi di categorie andrebbero riconosciute per ottenere questo risultato?
- È possibile per gli esseri umani riconoscere queste categorie? Sebbene AutoML Vision possa gestire molte più immagini e categorie rispetto agli umani, se un umano non è in grado di riconoscere una categoria specifica, anche AutoML Vision avrà delle difficoltà.
- Quali tipi di esempi rifletterebbero meglio il tipo e la gamma di dati che il sistema classificherà?
Pensa all'inchiesta che stai realizzando. In che modo le risposte a queste domande cambiano il tuo approccio? Serve davvero il Machine Learning?
Valuta il tuo caso concreto
Per quanto riguarda il nostro caso, le risposte potrebbero essere quelle di seguito elencate:
- Vogliamo che il nostro modello sia in grado di riconoscere i casi di estrazione dell'ambra nelle immagini satellitari che gli presenteremo.
- Abbiamo bisogno di due sole categorie: "SÌ: questa immagine include elementi visivi coerenti con i modelli che di solito mostrano l'attività di estrazione dell'ambra" e "NO: questa immagine non include elementi visivi che suggeriscono l'attività di estrazione dell'ambra".
- Per lo più, sì: i casi di estrazione dell'ambra sono abbastanza riconoscibili nelle immagini satellitari a causa del caratteristico modello di buchi nel terreno. Nella fase di test vedremo, però, che potrebbe non essere sempre così facile come pensiamo.
- Sfondo diverso, diversa densità dei fori, diversi colori. Più diversi sono gli esempi nel nostro set di dati, migliore sarà l'apprendimento dell'algoritmo.
La fonte dei tuoi dati
Dopo aver stabilito di quali dati hai bisogno, il passaggio successivo consiste nel trovare un modo per reperirli. Nel nostro caso, disponiamo già del set di dati fornito da Texty. Ma se non avessi già a disposizione i dati per il training dovresti chiederti: come e dove posso reperire le immagini di cui ho bisogno?
Potresti ottenerli da un'azienda, da un ente o da soggetti terzi: in qualunque caso, assicurarti di leggere le norme sulla protezione dei dati in vigore nel tuo paese e nei luoghi in cui la richiesta verrà elaborata.
Sebbene nessun dato per l'addestramento sarà mai perfettamente "imparziale", potrai migliorare notevolmente le tue possibilità di costruire un modello equo se consideri attentamente le potenziali fonti di parzialità o bias nei tuoi dati e prendi provvedimenti per affrontarle. Per ulteriori informazioni, consulta la nostra Introduzione al Machine Learning.
Prepara i tuoi dati
100 esempi per etichetta
. In generale, maggiore sarà la quantità di immagini etichettate che potrai fornire al processo di addestramento, migliore sarà il tuo modello.
È importante includere quantità più o meno simili di esempi per ciascuna categoria. Se disponi di molteplici dati per un'etichetta, utilizzane solo una parte, questo per evitare di avere una quantità di esempi molto diversa per categoria.
Trova immagini che siano visivamente simili a ciò che intendi far classificare al modello. Idealmente, gli esempi che fornisci dovrebbero provenire dal mondo reale, tratti dallo stesso set di dati che prevedi di utilizzare nel tuo modello per la classificazione.