Lección 4 de 7

Preparación de datos

5 minutos para completar

Preparación de datos

Evalúa tu caso de uso, obtén y prepara tus datos

¿Qué son los datos de entrenamiento?

Si has configurado correctamente tu cuenta de Google Cloud, ahora estás listo para el ejercicio. En esta lección, aprenderás qué preguntas debes hacer mientras recopilas los datos de entrenamiento y cómo prepararlos para que los utilice AutoML Vision.

Con datos de entrenamiento, nos referimos a los datos de ejemplo de lo que queremos que nuestro modelo de ML pueda reconocer y categorizar. En nuestro caso, esto significa proporcionar un conjunto de imágenes de satélite y decirle al algoritmo cuáles son ejemplos de extracción de ámbar y cuáles no.

Comienza con tu caso de uso

Cuando prepares un conjunto de datos, comienza siempre desde el problema que quieres resolver utilizando aprendizaje automático. Considera las siguientes preguntas:

¿Cuál es el resultado que estás tratando de lograr?
¿Qué tipo de categorías necesitarías reconocer para lograr este resultado?
¿Es posible que los humanos reconozcan esas categorías? Aunque AutoML Vision puede manejar muchas más imágenes y categorías que los humanos, si un humano no puede reconocer una categoría específica, entonces AutoML Vision también lo pasará mal.
¿Qué tipos de ejemplos reflejarían mejor el tipo y rango de datos que clasificará tu sistema?

Piensa en una historia en la que estés trabajando. ¿Cómo cambian las respuestas a esas preguntas tu enfoque de la historia? ¿Necesitas aprendizaje automático para ello?

Evalúa tu caso de uso

En nuestro caso, estas pueden ser las respuestas a las preguntas anteriores:

Queremos que nuestro modelo sea capaz de reconocer instancias de extracción de ámbar en imágenes de satélite que le presentaremos.
Sólo necesitamos dos categorías: "SÍ: esta imagen incluye elementos visuales consistentes con patrones que generalmente muestran actividad minera ámbar" y "NO: esta imagen no incluye elementos visuales que sugieran actividad minera ámbar".
En su mayoría sí: los casos de extracción de ámbar son bastante reconocibles en las imágenes de satélite debido al patrón distintivo de agujeros en el suelo en forma de marcas de viruela. Pero veremos en la fase de prueba que puede que no siempre sea tan fácil como pensamos.
Fondo diferente, densidad diferente de los agujeros, colores diferentes. Cuanto más diversos sean los ejemplos en nuestro conjunto de datos, mejor aprenderá el algoritmo.

Obtén tus datos

Una vez que hayas establecido qué datos necesitas, el siguiente paso es encontrar una manera de obtenerlos. En nuestro caso, ya tenemos el conjunto de datos proporcionado por Texty. Pero piensa en cuál podría ser tu propio caso de uso: ¿Cómo y dónde puedes encontrar las imágenes que necesitas?

Es posible que puedas obtenerlos de lo que recopila tu organización o de terceros. En ambos casos, asegúrate de revisar las regulaciones sobre protección de datos en tu región y las ubicaciones en las que funcionará tu aplicación.

Ningún dato de entrenamiento será perfectamente "imparcial", pero puede mejorar sus posibilidades de construir un modelo de aprendizaje automatizado "equitativo" si consideras cuidadosamente los posibles márgenes de error en tus datos y tomas medidas para abordarlas. Consulta nuestra Introduction to Machine Learning para obtener más información al respecto.

Prepara tus datos

Hay algunas cosas más a tener en cuenta al reunir los datos de entrenamiento:

Incluye suficientes ejemplos etiquetados en cada categoría: El mínimo requerido por AutoML Vision es 100 ejemplos por etiqueta. En general, cuantas más imágenes etiquetadas puedas traer al proceso de entrenamiento, mejor será tu modelo.

Es importante incluir cantidades aproximadamente similares de ejemplos de capacitación para cada categoría. Si tienes una gran cantidad de datos para una etiqueta, usa solo una parte para evitar tener una cantidad muy diferente de ejemplos por categoría.

Busca imágenes que sean visualmente similares a lo que planeas pedirle al modelo que categorice. Idealmente, tus ejemplos de entrenamiento son datos del mundo real extraídos del mismo conjunto de datos que planeas usar el modelo para clasificar.

¡Felicitaciones! Ya terminaste Preparación de datos Sí, lo estoy haciendo

Recomendaciones para ti

open_in_new

Google Académico: Accede a casos judiciales, trabajos académicos y fuentes.

Lección

Accede rápidamente a opiniones de expertos.

Iniciar

Quitar de tu cuenta

Guardar en tu cuenta

None
open_in_new

Aumenta los ingresos publicitarios con Google Ad Manager

Lección

Aprovecha al máximo tus ingresos publicitarios

Iniciar

Quitar de tu cuenta

Guardar en tu cuenta

None
open_in_new

How to add them to your site

Lección

There are two ways to add Web Stories to your site, regardless of the CMS you use to maintain it. Each approach is simple, intuitive, and poised to make Web Stories a vital part of your content strategy going forward.

Iniciar

Quitar de tu cuenta

Guardar en tu cuenta

None

¿Cómo calificarías esta lección?

Tus comentarios nos ayudarán a mejorar continuamente nuestras lecciones.

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Preparación de datos

¿Qué son los datos de entrenamiento?

Comienza con tu caso de uso

Evalúa tu caso de uso

Obtén tus datos

Prepara tus datos

Google Académico: Accede a casos judiciales, trabajos académicos y fuentes.

Aumenta los ingresos publicitarios con Google Ad Manager

How to add them to your site

Busco recursos en

Preparación de datos

¿Qué son los datos de entrenamiento?

Comienza con tu caso de uso

Evalúa tu caso de uso

Obtén tus datos

Prepara tus datos

Google Académico: Accede a casos judiciales, trabajos académicos y fuentes.

Aumenta los ingresos publicitarios con Google Ad Manager

How to add them to your site