Preparação de dados
Avalie seu caso de uso, obtenha e prepare seus dados
O que são dados de treinamento?
Se configuraram adequadamente suas contas do Google Cloud, vocês estão prontos para o exercício. Nesta aula, vocês saberão quais perguntas devem fazer enquanto reúnem os dados de treinamento, e como prepará-los para ser usados pelo AutoML Vision.
Por dados de treinamento, estamos nos referindo a exemplos daquilo que queremos que nosso modelo do ML seja capaz de reconhecer e categorizar. Em nosso caso, isso significa fornecer um conjunto de imagens de satélite e informar ao algoritmo quais delas são exemplos de mineração de âmbar – e quais não são.
Comece com seu caso de uso
Ao criar o conjunto de dados, sempre comecem a partir do problema que vocês estão pedindo ao ML para ajudá-los a solucionar. Considerem as seguintes perguntas:
- Qual é o resultado do que vocês estão tentando alcançar?
- Que tipos de categorias vocês precisam reconhecer para alcançar esse resultado?
- É possível que humanos reconheçam essas categorias? Embora o AutoML Vision seja capaz de lidar com muito mais imagens e categorias do que os humanos, se uma pessoa não conseguir reconhecer uma categoria específica, o AutoML Vision também enfrentará dificuldades.
- Quais tipos de exemplos refletem melhor o tipo e a variedade de dados que seu sistema classificará?
Pensem em uma história na qual vocês estejam trabalhando. Como as respostas a essas perguntas mudam sua abordagem em relação à história (e se você precisa do machine learning para ela)?
Avalie seu caso de uso
Em nosso caso, estas podem ser nossas respostas:
- Queremos que nosso modelo seja capaz de reconhecer casos de mineração de âmbar nas imagens de satélite que apresentaremos a ele.
- Precisamos apenas de duas categorias: "SIM: esta imagem inclui elementos consistentes com padrões que geralmente mostram atividades de mineração de âmbar"; e "NÃO: esta imagem não inclui elementos que sugerem mineração de âmbar".
- Em grande parte sim: os casos de mineração de âmbar são bem reconhecíveis em imagens de satélite devido ao padrão distinto com buracos no solo. Porém, veremos na fase de testes que isso pode nem sempre ser tão simples quanto pensamos.
- Diferentes planos de fundo, diferentes densidades dos buracos, diferentes cores. Quanto mais diversificados forem os exemplos em nosso conjunto de dados, melhor o algoritmo aprenderá.
Obtenha seus dados
Após estabelecer quais dados vocês precisam, o próximo passo consiste em encontrar uma forma de obtê-los. Em nosso caso, já possuímos o conjunto de dados fornecido pela Texty. Porém, pensem em como podem ser seus próprios casos de uso: como e onde vocês podem encontrar as imagens de que precisam?
Vocês talvez consigam obtê-los a partir do que suas empresas coletam – ou de terceiros. Em ambos os casos, certifiquem-se de revisar as regulamentações sobre proteção de dados na sua região e nos locais onde seu aplicativo operará.
Nenhum dado de treinamento será perfeitamente à prova de vieses, mas você pode melhorar significativamente suas chances de criar um modelo “justo” no ML se considerar cuidadosamente as potenciais fontes de vieses nos seus dados e tomar todas as medidas para lidar com elas. Verifiquem nosso curso Introdução ao Machine Learning para saber mais sobre isso.
Prepare seus dados
Há mais alguns outros aspectos a se manter em mente à medida que vocês criam os dados de treinamento:
Incluam exemplos rotulados suficientes em cada categoria: o mínimo exigido pelo AutoML Vision são 100 exemplos por rótulo. Em geral, quanto mais imagens rotuladas vocês puderem fornecer ao processo de treinamento, melhores serão seus modelos.
É importante incluir quantidades aproximadamente similares de exemplos de treinamento para cada categoria. Se possuírem muitos dados para um rótulo, usem apenas parte deles para evitar manter uma quantidade muito diferente de exemplos por categoria.
Encontrem imagens que sejam visualmente similares àquilo que vocês planejam pedir para o modelo categorizar. Idealmente, seus exemplos de treinamento são dados reais extraídos do mesmo conjunto de dados que vocês pretendem usar o modelo para classificar.
-
-
-
Saiba mais sobre bloqueadores de anúncios
AulaRecupere a receita de publicidade perdida com bloqueadores de anúncios