Przygotowanie danych
Ocena przypadku, źródło i przygotowanie danych
Czym są dane szkoleniowe?
Po poprawnym skonfigurowaniu konta Google Cloud można przystąpić do wykonania ćwiczenia. W tej lekcji opiszemy, jakie pytania należy zadawać podczas zbierania danych szkoleniowych i jak przygotować je do pracy z AutoML Vision.
Dane szkoleniowe to przykłady informacji, które chcemy rozpoznawać i skategoryzować za pomocą naszego modelu UM. W tym przypadku jest to zestaw zdjęć satelitarnych wraz z informacją dla algorytmu, które z nich są przykładami wydobycia bursztynu, a które nie.
Rozpoczynanie od przypadku użycia
Przygotowując zestaw danych, należy zawsze mieć na uwadze problem, który zamierzamy rozwiązać za pomocą UM. Dlatego warto rozważyć następujące pytania:
- Jakiego wyniku oczekuję? Co chcę osiągnąć?
- Jakie kategorie muszę rozpoznać, aby osiągnąć ten wynik?
- Czy ludzie są w stanie rozpoznać takie kategorie? Wprawdzie algorytm AutoML Vision potrafi przetworzyć o wiele więcej obrazów i kategorii niż człowiek, ale jeśli dana kategoria byłaby trudna do skategoryzowania przez ludzi, to AutoML Vision również będzie miał z nią trudności.
- Jakie przykłady najlepiej odzwierciedlają rodzaje i zakres danych, które mają zostać sklasyfikowane przez system?
Pomyśl o materiale, nad którym pracujesz. W jaki sposób odpowiedzi na te pytania zmieniłyby Twoje podejście do tego materiału? Czy potrzebujesz uczenia maszyn do jego zrealizowania?
Ocena przypadku użycia
W naszym przypadku odpowiedzi mogą być następujące:
- Chcemy, aby nasz model był w stanie rozpoznać przypadki wydobycia bursztynu w przedstawionych obrazach satelitarnych.
- Potrzebujemy tylko dwóch kategorii: „TAK: ten obraz zawiera elementy typowe dla wzorów sugerujących obecność działań wydobycia bursztynu” oraz „NIE: ten obraz nie zawiera elementów sugerujących obecność działań wydobycia bursztynu”.
- W większości przypadków odpowiedź brzmi „tak”: przykłady wydobycia bursztynu da się łatwo rozpoznać na zdjęciach satelitarnych ze względu na charakterystyczne wzory otworów wydrążonych w ziemi. Na etapie testowania przekonamy się jednak, że czasami występują komplikacje.
- Niektóre obrazy mogą mieć inne tła, różnić się gęstością otworów, bądź kolorami. Im większa różnorodność przykładów w zestawie danych, tym skuteczniejsze będzie uczenie algorytmu.
Przygotowanie źródła danych
Po określeniu niezbędnych danych, należy znaleźć źródło, z którego będą one pozyskiwane. W naszym przypadku mamy do dyspozycji zestaw danych udostępniony przez Texty. Pomyśl jednak, jak taki zestaw wyglądałby w Twoim przypadku zastosowania. Jak i gdzie znajdziesz potrzebne obrazy?
Być może będziesz w stanie pozyskać je ze zbiorów Twojej organizacji lub od osób trzecich. W obu przypadkach należy zapoznać się z przepisami dotyczącymi ochrony danych osobowych w danym regionie oraz lokalizacjach, które będą przetwarzane w danym zastosowaniu.
Dane szkoleniowe nigdy nie będą całkowicie „bezstronne”, ale możesz zwiększyć swoje szanse na zbudowanie „sprawiedliwego” modelu UM, jeśli dokładnie rozważysz potencjalne źródła stronniczości w swoich danych i podejmiesz czynności zmierzające do ich zmitygowania. Więcej informacji można znaleźć w szkoleniu Wprowadzenie do uczenia maszynowego.
Przygotowanie danych
Podczas zestawiania danych szkoleniowych należy także pamiętać o kilku innych kwestiach:
W każdej kategorii należy zawrzeć wystarczają liczbę przykładów opatrzonych etykietami: AutoML wymaga podania co najmniej 100 przykładów na każdą etykietę. Ogólnie rzecz biorąc, im więcej opatrzonych etykietami obrazu wprowadzisz do procesu szkolenia, tym lepszy będzie model.
Ważne jest, aby w każdej kategorii wprowadzić mniej więcej podobną liczbę przykładów do szkolenia. Jeśli masz dużą ilość danych dla jednej etykiety, wykorzystaj tylko część z nich, aby uniknąć dużych różnic w liczbach przykładów między kategoriami.
Znajdź obrazy, które są wizualnie podobne do tego, co zamierzasz skategoryzować za pomocą modelu. Najlepiej byłoby, gdyby szkoleniowe przykłady były rzeczywistymi danymi pochodzącymi ze samego zbioru danych przeznaczonych do skategoryzowania.
-
Tworzenie stosu technologicznego
LekcjaZnajdź najlepszą technologię do publikowania treści, zarabiania na nich i nie tylko -
Wizualizacja danych: Wprowadzenie do kartogramów anamorficznych („kafelkowych”).
LekcjaNowy sposób przedstawiania danych na mapie. -