Preparación de datos
Evalúa tu caso de uso, obtén y prepara tus datos
¿Qué son los datos de entrenamiento?
Si has configurado correctamente tu cuenta de Google Cloud, ahora estás listo para el ejercicio. En esta lección, aprenderás qué preguntas debes hacer mientras recopilas los datos de entrenamiento y cómo prepararlos para que los utilice AutoML Vision.
Con datos de entrenamiento, nos referimos a los datos de ejemplo de lo que queremos que nuestro modelo de ML pueda reconocer y categorizar. En nuestro caso, esto significa proporcionar un conjunto de imágenes de satélite y decirle al algoritmo cuáles son ejemplos de extracción de ámbar y cuáles no.
Comienza con tu caso de uso
Cuando prepares un conjunto de datos, comienza siempre desde el problema que quieres resolver utilizando aprendizaje automático. Considera las siguientes preguntas:
- ¿Cuál es el resultado que estás tratando de lograr?
- ¿Qué tipo de categorías necesitarías reconocer para lograr este resultado?
- ¿Es posible que los humanos reconozcan esas categorías? Aunque AutoML Vision puede manejar muchas más imágenes y categorías que los humanos, si un humano no puede reconocer una categoría específica, entonces AutoML Vision también lo pasará mal.
- ¿Qué tipos de ejemplos reflejarían mejor el tipo y rango de datos que clasificará tu sistema?
Piensa en una historia en la que estés trabajando. ¿Cómo cambian las respuestas a esas preguntas tu enfoque de la historia? ¿Necesitas aprendizaje automático para ello?
Evalúa tu caso de uso
En nuestro caso, estas pueden ser las respuestas a las preguntas anteriores:
- Queremos que nuestro modelo sea capaz de reconocer instancias de extracción de ámbar en imágenes de satélite que le presentaremos.
- Sólo necesitamos dos categorías: "SÍ: esta imagen incluye elementos visuales consistentes con patrones que generalmente muestran actividad minera ámbar" y "NO: esta imagen no incluye elementos visuales que sugieran actividad minera ámbar".
- En su mayoría sí: los casos de extracción de ámbar son bastante reconocibles en las imágenes de satélite debido al patrón distintivo de agujeros en el suelo en forma de marcas de viruela. Pero veremos en la fase de prueba que puede que no siempre sea tan fácil como pensamos.
- Fondo diferente, densidad diferente de los agujeros, colores diferentes. Cuanto más diversos sean los ejemplos en nuestro conjunto de datos, mejor aprenderá el algoritmo.
Obtén tus datos
Una vez que hayas establecido qué datos necesitas, el siguiente paso es encontrar una manera de obtenerlos. En nuestro caso, ya tenemos el conjunto de datos proporcionado por Texty. Pero piensa en cuál podría ser tu propio caso de uso: ¿Cómo y dónde puedes encontrar las imágenes que necesitas?
Es posible que puedas obtenerlos de lo que recopila tu organización o de terceros. En ambos casos, asegúrate de revisar las regulaciones sobre protección de datos en tu región y las ubicaciones en las que funcionará tu aplicación.
Ningún dato de entrenamiento será perfectamente "imparcial", pero puede mejorar sus posibilidades de construir un modelo de aprendizaje automatizado "equitativo" si consideras cuidadosamente los posibles márgenes de error en tus datos y tomas medidas para abordarlas. Consulta nuestra Introduction to Machine Learning para obtener más información al respecto.
Prepara tus datos
Hay algunas cosas más a tener en cuenta al reunir los datos de entrenamiento:
Incluye suficientes ejemplos etiquetados en cada categoría: El mínimo requerido por AutoML Vision es 100 ejemplos por etiqueta. En general, cuantas más imágenes etiquetadas puedas traer al proceso de entrenamiento, mejor será tu modelo.
Es importante incluir cantidades aproximadamente similares de ejemplos de capacitación para cada categoría. Si tienes una gran cantidad de datos para una etiqueta, usa solo una parte para evitar tener una cantidad muy diferente de ejemplos por categoría.
Busca imágenes que sean visualmente similares a lo que planeas pedirle al modelo que categorice. Idealmente, tus ejemplos de entrenamiento son datos del mundo real extraídos del mismo conjunto de datos que planeas usar el modelo para clasificar.
-
Aumenta los ingresos publicitarios digitales con AdSense
LecciónEmpieza a usar AdSense para obtener ingresos de la publicidad programática -
Imágenes Satelitales de Google: Google Earth Pro, Maps y Timelapse
LecciónDescubre dónde se hizo una foto y cuándo se subió. -
Hojas de cálculo de Google: cómo extraer datos de Internet
LecciónCrea tus propios grupos de datos con las Hojas de cálculo de Google.