Lekcja 4 z 7

Przygotowanie danych

5 minut aby zakończyć

Przygotowanie danych

Ocena przypadku, źródło i przygotowanie danych

Czym są dane szkoleniowe?

Po poprawnym skonfigurowaniu konta Google Cloud można przystąpić do wykonania ćwiczenia. W tej lekcji opiszemy, jakie pytania należy zadawać podczas zbierania danych szkoleniowych i jak przygotować je do pracy z AutoML Vision.

Dane szkoleniowe to przykłady informacji, które chcemy rozpoznawać i skategoryzować za pomocą naszego modelu UM. W tym przypadku jest to zestaw zdjęć satelitarnych wraz z informacją dla algorytmu, które z nich są przykładami wydobycia bursztynu, a które nie.

Rozpoczynanie od przypadku użycia

Przygotowując zestaw danych, należy zawsze mieć na uwadze problem, który zamierzamy rozwiązać za pomocą UM. Dlatego warto rozważyć następujące pytania:

Jakiego wyniku oczekuję? Co chcę osiągnąć?
Jakie kategorie muszę rozpoznać, aby osiągnąć ten wynik?
Czy ludzie są w stanie rozpoznać takie kategorie? Wprawdzie algorytm AutoML Vision potrafi przetworzyć o wiele więcej obrazów i kategorii niż człowiek, ale jeśli dana kategoria byłaby trudna do skategoryzowania przez ludzi, to AutoML Vision również będzie miał z nią trudności.
Jakie przykłady najlepiej odzwierciedlają rodzaje i zakres danych, które mają zostać sklasyfikowane przez system?

Pomyśl o materiale, nad którym pracujesz. W jaki sposób odpowiedzi na te pytania zmieniłyby Twoje podejście do tego materiału? Czy potrzebujesz uczenia maszyn do jego zrealizowania?

Ocena przypadku użycia

W naszym przypadku odpowiedzi mogą być następujące:

Chcemy, aby nasz model był w stanie rozpoznać przypadki wydobycia bursztynu w przedstawionych obrazach satelitarnych.
Potrzebujemy tylko dwóch kategorii: „TAK: ten obraz zawiera elementy typowe dla wzorów sugerujących obecność działań wydobycia bursztynu” oraz „NIE: ten obraz nie zawiera elementów sugerujących obecność działań wydobycia bursztynu”.
W większości przypadków odpowiedź brzmi „tak”: przykłady wydobycia bursztynu da się łatwo rozpoznać na zdjęciach satelitarnych ze względu na charakterystyczne wzory otworów wydrążonych w ziemi. Na etapie testowania przekonamy się jednak, że czasami występują komplikacje.
Niektóre obrazy mogą mieć inne tła, różnić się gęstością otworów, bądź kolorami. Im większa różnorodność przykładów w zestawie danych, tym skuteczniejsze będzie uczenie algorytmu.

Przygotowanie źródła danych

Po określeniu niezbędnych danych, należy znaleźć źródło, z którego będą one pozyskiwane. W naszym przypadku mamy do dyspozycji zestaw danych udostępniony przez Texty. Pomyśl jednak, jak taki zestaw wyglądałby w Twoim przypadku zastosowania. Jak i gdzie znajdziesz potrzebne obrazy?

Być może będziesz w stanie pozyskać je ze zbiorów Twojej organizacji lub od osób trzecich. W obu przypadkach należy zapoznać się z przepisami dotyczącymi ochrony danych osobowych w danym regionie oraz lokalizacjach, które będą przetwarzane w danym zastosowaniu.

Dane szkoleniowe nigdy nie będą całkowicie „bezstronne”, ale możesz zwiększyć swoje szanse na zbudowanie „sprawiedliwego” modelu UM, jeśli dokładnie rozważysz potencjalne źródła stronniczości w swoich danych i podejmiesz czynności zmierzające do ich zmitygowania. Więcej informacji można znaleźć w szkoleniu Wprowadzenie do uczenia maszynowego.

Przygotowanie danych

Podczas zestawiania danych szkoleniowych należy także pamiętać o kilku innych kwestiach:

W każdej kategorii należy zawrzeć wystarczają liczbę przykładów opatrzonych etykietami: AutoML wymaga podania co najmniej 100 przykładów na każdą etykietę. Ogólnie rzecz biorąc, im więcej opatrzonych etykietami obrazu wprowadzisz do procesu szkolenia, tym lepszy będzie model.

Ważne jest, aby w każdej kategorii wprowadzić mniej więcej podobną liczbę przykładów do szkolenia. Jeśli masz dużą ilość danych dla jednej etykiety, wykorzystaj tylko część z nich, aby uniknąć dużych różnic w liczbach przykładów między kategoriami.

Znajdź obrazy, które są wizualnie podobne do tego, co zamierzasz skategoryzować za pomocą modelu. Najlepiej byłoby, gdyby szkoleniowe przykłady były rzeczywistymi danymi pochodzącymi ze samego zbioru danych przeznaczonych do skategoryzowania.

Gratulacje! To już koniec Przygotowanie danych Jesteśmy w trakcie tego procesu

Polecane dla Ciebie

open_in_new

How to make them using makestories.io

Lekcja

makestories.io is a platform specially created to help people make, publish, and monetize Google Web Stories. It’s free, and it can be used with any content management system. Here are the basics of how to get started with makestories.io.

Rozpocznij

Usuń ze swojego konta

Zapisz na swoim koncie

None
open_in_new

What are Web Stories?

Lekcja

How the easy-to-use vertical video format is changing the face of digital storytelling and driving the connection between content makers and their fans.

Rozpocznij

Usuń ze swojego konta

Zapisz na swoim koncie

None
open_in_new

Google Earth Timelapse: Obserwowanie zmian

Lekcja

Zobacz, jak zmieniała się Ziemia przez ostatnie 35 lat.

Rozpocznij

Usuń ze swojego konta

Zapisz na swoim koncie

None

Jak oceniasz tę lekcję?

Twoja opinia pomoże nam w ciągłym udoskonalaniu naszych lekcji.

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Przygotowanie danych

Czym są dane szkoleniowe?

Rozpoczynanie od przypadku użycia

Ocena przypadku użycia

Przygotowanie źródła danych

Przygotowanie danych

How to make them using makestories.io

What are Web Stories?

Google Earth Timelapse: Obserwowanie zmian

Szukam materiałów związanych z tematem

Przygotowanie danych

Czym są dane szkoleniowe?

Rozpoczynanie od przypadku użycia

Ocena przypadku użycia

Przygotowanie źródła danych

Przygotowanie danych

How to make them using makestories.io

What are Web Stories?

Google Earth Timelapse: Obserwowanie zmian