Aula 4 de 7

Preparação de dados

5 minutos para concluir

Preparação de dados

Avalie seu caso de uso, obtenha e prepare seus dados

O que são dados de treinamento?

Se configuraram adequadamente suas contas do Google Cloud, vocês estão prontos para o exercício. Nesta aula, vocês saberão quais perguntas devem fazer enquanto reúnem os dados de treinamento, e como prepará-los para ser usados pelo AutoML Vision.

Por dados de treinamento, estamos nos referindo a exemplos daquilo que queremos que nosso modelo do ML seja capaz de reconhecer e categorizar. Em nosso caso, isso significa fornecer um conjunto de imagens de satélite e informar ao algoritmo quais delas são exemplos de mineração de âmbar – e quais não são.

Comece com seu caso de uso

Ao criar o conjunto de dados, sempre comecem a partir do problema que vocês estão pedindo ao ML para ajudá-los a solucionar. Considerem as seguintes perguntas:

Qual é o resultado do que vocês estão tentando alcançar?
Que tipos de categorias vocês precisam reconhecer para alcançar esse resultado?
É possível que humanos reconheçam essas categorias? Embora o AutoML Vision seja capaz de lidar com muito mais imagens e categorias do que os humanos, se uma pessoa não conseguir reconhecer uma categoria específica, o AutoML Vision também enfrentará dificuldades.
Quais tipos de exemplos refletem melhor o tipo e a variedade de dados que seu sistema classificará?

Pensem em uma história na qual vocês estejam trabalhando. Como as respostas a essas perguntas mudam sua abordagem em relação à história (e se você precisa do machine learning para ela)?

Avalie seu caso de uso

Em nosso caso, estas podem ser nossas respostas:

Queremos que nosso modelo seja capaz de reconhecer casos de mineração de âmbar nas imagens de satélite que apresentaremos a ele.
Precisamos apenas de duas categorias: "SIM: esta imagem inclui elementos consistentes com padrões que geralmente mostram atividades de mineração de âmbar"; e "NÃO: esta imagem não inclui elementos que sugerem mineração de âmbar".
Em grande parte sim: os casos de mineração de âmbar são bem reconhecíveis em imagens de satélite devido ao padrão distinto com buracos no solo. Porém, veremos na fase de testes que isso pode nem sempre ser tão simples quanto pensamos.
Diferentes planos de fundo, diferentes densidades dos buracos, diferentes cores. Quanto mais diversificados forem os exemplos em nosso conjunto de dados, melhor o algoritmo aprenderá.

Obtenha seus dados

Após estabelecer quais dados vocês precisam, o próximo passo consiste em encontrar uma forma de obtê-los. Em nosso caso, já possuímos o conjunto de dados fornecido pela Texty. Porém, pensem em como podem ser seus próprios casos de uso: como e onde vocês podem encontrar as imagens de que precisam?

Vocês talvez consigam obtê-los a partir do que suas empresas coletam – ou de terceiros. Em ambos os casos, certifiquem-se de revisar as regulamentações sobre proteção de dados na sua região e nos locais onde seu aplicativo operará.

Nenhum dado de treinamento será perfeitamente à prova de vieses, mas você pode melhorar significativamente suas chances de criar um modelo “justo” no ML se considerar cuidadosamente as potenciais fontes de vieses nos seus dados e tomar todas as medidas para lidar com elas. Verifiquem nosso curso Introdução ao Machine Learning para saber mais sobre isso.

Prepare seus dados

Há mais alguns outros aspectos a se manter em mente à medida que vocês criam os dados de treinamento:

Incluam exemplos rotulados suficientes em cada categoria: o mínimo exigido pelo AutoML Vision são 100 exemplos por rótulo. Em geral, quanto mais imagens rotuladas vocês puderem fornecer ao processo de treinamento, melhores serão seus modelos.

É importante incluir quantidades aproximadamente similares de exemplos de treinamento para cada categoria. Se possuírem muitos dados para um rótulo, usem apenas parte deles para evitar manter uma quantidade muito diferente de exemplos por categoria.

Encontrem imagens que sejam visualmente similares àquilo que vocês planejam pedir para o modelo categorizar. Idealmente, seus exemplos de treinamento são dados reais extraídos do mesmo conjunto de dados que vocês pretendem usar o modelo para classificar.

Parabéns! Você terminou Preparação de dados Sim, está em andamento

Recomendado para você

open_in_new

Aumente o tráfego com o Search Console

Aula

Aumente o tráfego com o Search Console

Iniciar

Remover da sua conta

Salvar na sua conta

None
open_in_new

Histórias contadas com o Google Trends

Aula

Descubra maneiras de contextualizar os dados do Google Trends e integrá-los aos seus relatórios.

Iniciar

Remover da sua conta

Salvar na sua conta

None
open_in_new

Google Sheets: Visualização de dados

Aula

Aprenda a desenvolver visualizações que o ajudam a interpretar os dados e contam estórias baseadas em dados.

Iniciar

Remover da sua conta

Salvar na sua conta

None

Como você classifica esta aula?

Seu feedback nos ajuda a continuar melhorando as aulas.

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Preparação de dados

O que são dados de treinamento?

Comece com seu caso de uso

Avalie seu caso de uso

Obtenha seus dados

Prepare seus dados

Aumente o tráfego com o Search Console

Histórias contadas com o Google Trends

Google Sheets: Visualização de dados

Estou procurando recursos em

Preparação de dados

O que são dados de treinamento?

Comece com seu caso de uso

Avalie seu caso de uso

Obtenha seus dados

Prepare seus dados

Aumente o tráfego com o Search Console

Histórias contadas com o Google Trends

Google Sheets: Visualização de dados