Ir al contenido principal
Ir al panel
¿No sabes por dónde empezar? Responde un breve cuestionario para obtener recomendaciones personalizadas.
Lección 4 de 7
Preparación de datos
Aprendizaje automático práctico
¿Qué es el aprendizaje automático?
Investigar historias con aprendizaje automático
Google Cloud AutoML Vision
Preparación de datos
Entrenando tu modelo de aprendizaje automático
Evaluar y probar
check_box_outline_blank Aprendizaje automático práctico: Haz el cuestionario
Curso
0% completada
5 minutos para completar

Preparación de datos

image12_3.png

Evalúa tu caso de uso, obtén y prepara tus datos

image12_3.png

¿Qué son los datos de entrenamiento?

image12_3_zA6aI42.png

Si has configurado correctamente tu cuenta de Google Cloud, ahora estás listo para el ejercicio. En esta lección, aprenderás qué preguntas debes hacer mientras recopilas los datos de entrenamiento y cómo prepararlos para que los utilice AutoML Vision.

Con datos de entrenamiento, nos referimos a los datos de ejemplo de lo que queremos que nuestro modelo de ML pueda reconocer y categorizar. En nuestro caso, esto significa proporcionar un conjunto de imágenes de satélite y decirle al algoritmo cuáles son ejemplos de extracción de ámbar y cuáles no.

image12_3_zA6aI42.png

Comienza con tu caso de uso

image40_2.png

Cuando prepares un conjunto de datos, comienza siempre desde el problema que quieres resolver utilizando aprendizaje automático. Considera las siguientes preguntas:

  1. ¿Cuál es el resultado que estás tratando de lograr?
  2. ¿Qué tipo de categorías necesitarías reconocer para lograr este resultado?
  3. ¿Es posible que los humanos reconozcan esas categorías? Aunque AutoML Vision puede manejar muchas más imágenes y categorías que los humanos, si un humano no puede reconocer una categoría específica, entonces AutoML Vision también lo pasará mal.
  4. ¿Qué tipos de ejemplos reflejarían mejor el tipo y rango de datos que clasificará tu sistema?


Piensa en una historia en la que estés trabajando. ¿Cómo cambian las respuestas a esas preguntas tu enfoque de la historia? ¿Necesitas aprendizaje automático para ello?

image40_2.png

Evalúa tu caso de uso

image5_3.png

En nuestro caso, estas pueden ser las respuestas a las preguntas anteriores:


  1. Queremos que nuestro modelo sea capaz de reconocer instancias de extracción de ámbar en imágenes de satélite que le presentaremos.
  2. Sólo necesitamos dos categorías: "SÍ: esta imagen incluye elementos visuales consistentes con patrones que generalmente muestran actividad minera ámbar" y "NO: esta imagen no incluye elementos visuales que sugieran actividad minera ámbar".
  3. En su mayoría sí: los casos de extracción de ámbar son bastante reconocibles en las imágenes de satélite debido al patrón distintivo de agujeros en el suelo en forma de marcas de viruela. Pero veremos en la fase de prueba que puede que no siempre sea tan fácil como pensamos.
  4. Fondo diferente, densidad diferente de los agujeros, colores diferentes. Cuanto más diversos sean los ejemplos en nuestro conjunto de datos, mejor aprenderá el algoritmo.
image5_3.png

Obtén tus datos

image17_3.png

Una vez que hayas establecido qué datos necesitas, el siguiente paso es encontrar una manera de obtenerlos. En nuestro caso, ya tenemos el conjunto de datos proporcionado por Texty. Pero piensa en cuál podría ser tu propio caso de uso: ¿Cómo y dónde puedes encontrar las imágenes que necesitas?

Es posible que puedas obtenerlos de lo que recopila tu organización o de terceros. En ambos casos, asegúrate de revisar las regulaciones sobre protección de datos en tu región y las ubicaciones en las que funcionará tu aplicación.


Ningún dato de entrenamiento será perfectamente "imparcial", pero puede mejorar sus posibilidades de construir un modelo de aprendizaje automatizado "equitativo" si consideras cuidadosamente los posibles márgenes de error en tus datos y tomas medidas para abordarlas. Consulta nuestra Introduction to Machine Learning para obtener más información al respecto.

image17_3.png

Prepara tus datos

image50_2.png

Hay algunas cosas más a tener en cuenta al reunir los datos de entrenamiento:


Incluye suficientes ejemplos etiquetados en cada categoría: El mínimo requerido por AutoML Vision es 100 ejemplos por etiqueta. En general, cuantas más imágenes etiquetadas puedas traer al proceso de entrenamiento, mejor será tu modelo.


Es importante incluir cantidades aproximadamente similares de ejemplos de capacitación para cada categoría. Si tienes una gran cantidad de datos para una etiqueta, usa solo una parte para evitar tener una cantidad muy diferente de ejemplos por categoría.


Busca imágenes que sean visualmente similares a lo que planeas pedirle al modelo que categorice. Idealmente, tus ejemplos de entrenamiento son datos del mundo real extraídos del mismo conjunto de datos que planeas usar el modelo para clasificar.

image50_2.png
¡Felicitaciones! Ya terminaste Preparación de datos in progress
Recomendaciones para ti
¿Cómo calificarías esta lección?
Tus comentarios nos ayudarán a mejorar continuamente nuestras lecciones.
¿Salir y perder el progreso?
Si sales de esta página, perderás todo el progreso de la lección actual. ¿Confirmas que quieres continuar y perder el progreso?