Pular para o conteúdo principal
Ir para o painel
Não sabe como começar? Responda a algumas perguntas para receber recomendações personalizadas.
Welcome to the Google News Initiative
The Google News Initiative works with publishers and journalists to fight misinformation, share resources, and build a diverse and innovative news ecosystem.
Aula 4 de 7
Preparação de dados
Hands-on Machine Learning
O que é machine learning?
Investigando histórias com o machine learning
Google Cloud AutoML Vision
Preparação de dados
Treinando seu modelo de machine learning
Avaliação e teste
check_box_outline_blank Hands-on Machine Learning: Take the Quiz
Campo
0% concluída
5 minutos para concluir

Preparação de dados

image12_3.png
Avalie seu caso de uso, obtenha e prepare seus dados
image12_3.png

O que são dados de treinamento?

image12_3_zA6aI42.png

Se configuraram adequadamente suas contas do Google Cloud, vocês estão prontos para o exercício. Nesta aula, vocês saberão quais perguntas devem fazer enquanto reúnem os dados de treinamento, e como prepará-los para ser usados pelo AutoML Vision.


Por dados de treinamento, estamos nos referindo a exemplos daquilo que queremos que nosso modelo do ML seja capaz de reconhecer e categorizar. Em nosso caso, isso significa fornecer um conjunto de imagens de satélite e informar ao algoritmo quais delas são exemplos de mineração de âmbar – e quais não são.

image12_3_zA6aI42.png

Comece com seu caso de uso

image40_2.png

Ao criar o conjunto de dados, sempre comecem a partir do problema que vocês estão pedindo ao ML para ajudá-los a solucionar. Considerem as seguintes perguntas:


  1. Qual é o resultado do que vocês estão tentando alcançar?
  2. Que tipos de categorias vocês precisam reconhecer para alcançar esse resultado?
  3. É possível que humanos reconheçam essas categorias? Embora o AutoML Vision seja capaz de lidar com muito mais imagens e categorias do que os humanos, se uma pessoa não conseguir reconhecer uma categoria específica, o AutoML Vision também enfrentará dificuldades.
  4. Quais tipos de exemplos refletem melhor o tipo e a variedade de dados que seu sistema classificará?

Pensem em uma história na qual vocês estejam trabalhando. Como as respostas a essas perguntas mudam sua abordagem em relação à história (e se você precisa do machine learning para ela)?

image40_2.png

Avalie seu caso de uso

image5_3.png

Em nosso caso, estas podem ser nossas respostas:

  1. Queremos que nosso modelo seja capaz de reconhecer casos de mineração de âmbar nas imagens de satélite que apresentaremos a ele.
  2. Precisamos apenas de duas categorias: "SIM: esta imagem inclui elementos consistentes com padrões que geralmente mostram atividades de mineração de âmbar"; e "NÃO: esta imagem não inclui elementos que sugerem mineração de âmbar".
  3. Em grande parte sim: os casos de mineração de âmbar são bem reconhecíveis em imagens de satélite devido ao padrão distinto com buracos no solo. Porém, veremos na fase de testes que isso pode nem sempre ser tão simples quanto pensamos.
  4. Diferentes planos de fundo, diferentes densidades dos buracos, diferentes cores. Quanto mais diversificados forem os exemplos em nosso conjunto de dados, melhor o algoritmo aprenderá.
image5_3.png

Obtenha seus dados

image17_3.png

Após estabelecer quais dados vocês precisam, o próximo passo consiste em encontrar uma forma de obtê-los. Em nosso caso, já possuímos o conjunto de dados fornecido pela Texty. Porém, pensem em como podem ser seus próprios casos de uso: como e onde vocês podem encontrar as imagens de que precisam?


Vocês talvez consigam obtê-los a partir do que suas empresas coletam – ou de terceiros. Em ambos os casos, certifiquem-se de revisar as regulamentações sobre proteção de dados na sua região e nos locais onde seu aplicativo operará.


Nenhum dado de treinamento será perfeitamente à prova de vieses, mas você pode melhorar significativamente suas chances de criar um modelo “justo” no ML se considerar cuidadosamente as potenciais fontes de vieses nos seus dados e tomar todas as medidas para lidar com elas. Verifiquem nosso curso Introdução ao Machine Learning para saber mais sobre isso.

image17_3.png

Prepare seus dados

image50_2.png

Há mais alguns outros aspectos a se manter em mente à medida que vocês criam os dados de treinamento:


Incluam exemplos rotulados suficientes em cada categoria: o mínimo exigido pelo AutoML Vision são 100 exemplos por rótulo. Em geral, quanto mais imagens rotuladas vocês puderem fornecer ao processo de treinamento, melhores serão seus modelos.


É importante incluir quantidades aproximadamente similares de exemplos de treinamento para cada categoria. Se possuírem muitos dados para um rótulo, usem apenas parte deles para evitar manter uma quantidade muito diferente de exemplos por categoria.


Encontrem imagens que sejam visualmente similares àquilo que vocês planejam pedir para o modelo categorizar. Idealmente, seus exemplos de treinamento são dados reais extraídos do mesmo conjunto de dados que vocês pretendem usar o modelo para classificar.

image50_2.png
Leave and lose progress?
By leaving this page you will lose all progress on your current lesson. Are you sure you want to continue and lose your progress?