Lezione 4 di 7

Preparazione dei dati

5 minuti per completare

Preparazione dei dati

Fai una prima valutazione del tuo caso concreto, della fonte e prepara i tuoi dati

Cosa sono i training data?

Se hai configurato correttamente il tuo account Google Cloud, ora puoi proseguire con l’esercizio. In questa lezione apprenderai quali domande farti durante la raccolta dei dati per il training o addestramento dell'algoritmo e come prepararli per l'utilizzo da parte di AutoML Vision.

Per training data intendiamo esempi, scelti da noi, che il modello ML può riconoscere e classificare. Nel nostro caso, ciò significa fornire una serie di immagini satellitari e dire all'algoritmo quali immagini sono esempi di estrazione dell'ambra e quali no.

Inizia dal tuo caso concreto

Quando componi il set di dati, inizia sempre dal problema che stai chiedendo al ML di aiutarti a risolvere. Prendi in considerazione le domande che seguono:

Qual è il risultato che stai cercando di ottenere?
Quali tipi di categorie andrebbero riconosciute per ottenere questo risultato?
È possibile per gli esseri umani riconoscere queste categorie? Sebbene AutoML Vision possa gestire molte più immagini e categorie rispetto agli umani, se un umano non è in grado di riconoscere una categoria specifica, anche AutoML Vision avrà delle difficoltà.
Quali tipi di esempi rifletterebbero meglio il tipo e la gamma di dati che il sistema classificherà?

Pensa all'inchiesta che stai realizzando. In che modo le risposte a queste domande cambiano il tuo approccio? Serve davvero il Machine Learning?

Valuta il tuo caso concreto

Per quanto riguarda il nostro caso, le risposte potrebbero essere quelle di seguito elencate:

Vogliamo che il nostro modello sia in grado di riconoscere i casi di estrazione dell'ambra nelle immagini satellitari che gli presenteremo.
Abbiamo bisogno di due sole categorie: "SÌ: questa immagine include elementi visivi coerenti con i modelli che di solito mostrano l'attività di estrazione dell'ambra" e "NO: questa immagine non include elementi visivi che suggeriscono l'attività di estrazione dell'ambra".
Per lo più, sì: i casi di estrazione dell'ambra sono abbastanza riconoscibili nelle immagini satellitari a causa del caratteristico modello di buchi nel terreno. Nella fase di test vedremo, però, che potrebbe non essere sempre così facile come pensiamo.
Sfondo diverso, diversa densità dei fori, diversi colori. Più diversi sono gli esempi nel nostro set di dati, migliore sarà l'apprendimento dell'algoritmo.

La fonte dei tuoi dati

Dopo aver stabilito di quali dati hai bisogno, il passaggio successivo consiste nel trovare un modo per reperirli. Nel nostro caso, disponiamo già del set di dati fornito da Texty. Ma se non avessi già a disposizione i dati per il training dovresti chiederti: come e dove posso reperire le immagini di cui ho bisogno?

Potresti ottenerli da un'azienda, da un ente o da soggetti terzi: in qualunque caso, assicurarti di leggere le norme sulla protezione dei dati in vigore nel tuo paese e nei luoghi in cui la richiesta verrà elaborata.

Sebbene nessun dato per l'addestramento sarà mai perfettamente "imparziale", potrai migliorare notevolmente le tue possibilità di costruire un modello equo se consideri attentamente le potenziali fonti di parzialità o bias nei tuoi dati e prendi provvedimenti per affrontarle. Per ulteriori informazioni, consulta la nostra Introduzione al Machine Learning.

Prepara i tuoi dati

100 esempi per etichetta

. In generale, maggiore sarà la quantità di immagini etichettate che potrai fornire al processo di addestramento, migliore sarà il tuo modello.

È importante includere quantità più o meno simili di esempi per ciascuna categoria. Se disponi di molteplici dati per un'etichetta, utilizzane solo una parte, questo per evitare di avere una quantità di esempi molto diversa per categoria.

Trova immagini che siano visivamente simili a ciò che intendi far classificare al modello. Idealmente, gli esempi che fornisci dovrebbero provenire dal mondo reale, tratti dallo stesso set di dati che prevedi di utilizzare nel tuo modello per la classificazione.

Congratulazioni! Hai appena finito Preparazione dei dati Sì, l'operazione è in corso

Consigliati per te

open_in_new

Verifica: ricerca inversa di immagini avanzata

Lezione

Come capire se il racconto e i contenuti di un testimone sono veri o falsi.

Inizia

Rimuovi dall'account

Salva nel tuo account

None
open_in_new

Google Sheets: estrazione di dati da Internet

Lezione

Crea i tuoi set di dati con Google Sheets.

Inizia

Rimuovi dall'account

Salva nel tuo account

None
open_in_new

Prepare for third-party cookie deprecation

Lezione

Prepare for a privacy-first future

Inizia

Rimuovi dall'account

Salva nel tuo account

None

Come valuteresti questa lezione?

Il tuo feedback ci aiuterà a migliorare costantemente le nostre lezioni.

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Preparazione dei dati

Cosa sono i training data?

Inizia dal tuo caso concreto

Valuta il tuo caso concreto

La fonte dei tuoi dati

Prepara i tuoi dati

Verifica: ricerca inversa di immagini avanzata

Google Sheets: estrazione di dati da Internet

Prepare for third-party cookie deprecation

Sto cercando risorse in

Preparazione dei dati

Cosa sono i training data?

Inizia dal tuo caso concreto

Valuta il tuo caso concreto

La fonte dei tuoi dati

Prepara i tuoi dati

Verifica: ricerca inversa di immagini avanzata

Google Sheets: estrazione di dati da Internet

Prepare for third-party cookie deprecation