Przejdź do głównej treści
Otwórz panel
Nie wiesz, od czego zacząć? Rozwiąż krótki quiz, aby otrzymać spersonalizowane rekomendacje.
Welcome to the Google News Initiative
The Google News Initiative works with publishers and journalists to fight misinformation, share resources, and build a diverse and innovative news ecosystem.
Lekcja 4 z 7
Przygotowanie danych
Hands-on Machine Learning
Czym jest uczenie maszynowe?
Google Cloud AutoML Vision
Przygotowanie danych
Szkolenie modelu uczenia maszynowego
Ocena i test
check_box_outline_blank Hands-on Machine Learning: Take the Quiz
Kurs
0% ukończono
5 minut aby zakończyć

Przygotowanie danych

image12_3.png
Ocena przypadku, źródło i przygotowanie danych
image12_3.png

Czym są dane szkoleniowe?

image12_3_zA6aI42.png

Po poprawnym skonfigurowaniu konta Google Cloud można przystąpić do wykonania ćwiczenia. W tej lekcji opiszemy, jakie pytania należy zadawać podczas zbierania danych szkoleniowych i jak przygotować je do pracy z AutoML Vision.


Dane szkoleniowe to przykłady informacji, które chcemy rozpoznawać i skategoryzować za pomocą naszego modelu UM. W tym przypadku jest to zestaw zdjęć satelitarnych wraz z informacją dla algorytmu, które z nich są przykładami wydobycia bursztynu, a które nie.

image12_3_zA6aI42.png

Rozpoczynanie od przypadku użycia

image40_2.png

Przygotowując zestaw danych, należy zawsze mieć na uwadze problem, który zamierzamy rozwiązać za pomocą UM. Dlatego warto rozważyć następujące pytania:

  1. Jakiego wyniku oczekuję? Co chcę osiągnąć?
  2. Jakie kategorie muszę rozpoznać, aby osiągnąć ten wynik?
  3. Czy ludzie są w stanie rozpoznać takie kategorie? Wprawdzie algorytm AutoML Vision potrafi przetworzyć o wiele więcej obrazów i kategorii niż człowiek, ale jeśli dana kategoria byłaby trudna do skategoryzowania przez ludzi, to AutoML Vision również będzie miał z nią trudności.
  4. Jakie przykłady najlepiej odzwierciedlają rodzaje i zakres danych, które mają zostać sklasyfikowane przez system?


Pomyśl o materiale, nad którym pracujesz. W jaki sposób odpowiedzi na te pytania zmieniłyby Twoje podejście do tego materiału? Czy potrzebujesz uczenia maszyn do jego zrealizowania?


image40_2.png

Ocena przypadku użycia

image5_3.png

W naszym przypadku odpowiedzi mogą być następujące:


  1. Chcemy, aby nasz model był w stanie rozpoznać przypadki wydobycia bursztynu w przedstawionych obrazach satelitarnych.
  2. Potrzebujemy tylko dwóch kategorii: „TAK: ten obraz zawiera elementy typowe dla wzorów sugerujących obecność działań wydobycia bursztynu” oraz „NIE: ten obraz nie zawiera elementów sugerujących obecność działań wydobycia bursztynu”.
  3. W większości przypadków odpowiedź brzmi „tak”: przykłady wydobycia bursztynu da się łatwo rozpoznać na zdjęciach satelitarnych ze względu na charakterystyczne wzory otworów wydrążonych w ziemi. Na etapie testowania przekonamy się jednak, że czasami występują komplikacje.
  4. Niektóre obrazy mogą mieć inne tła, różnić się gęstością otworów, bądź kolorami. Im większa różnorodność przykładów w zestawie danych, tym skuteczniejsze będzie uczenie algorytmu.
image5_3.png

Przygotowanie źródła danych

image17_3.png

Po określeniu niezbędnych danych, należy znaleźć źródło, z którego będą one pozyskiwane. W naszym przypadku mamy do dyspozycji zestaw danych udostępniony przez Texty. Pomyśl jednak, jak taki zestaw wyglądałby w Twoim przypadku zastosowania. Jak i gdzie znajdziesz potrzebne obrazy?


Być może będziesz w stanie pozyskać je ze zbiorów Twojej organizacji lub od osób trzecich. W obu przypadkach należy zapoznać się z przepisami dotyczącymi ochrony danych osobowych w danym regionie oraz lokalizacjach, które będą przetwarzane w danym zastosowaniu.


Dane szkoleniowe nigdy nie będą całkowicie „bezstronne”, ale możesz zwiększyć swoje szanse na zbudowanie „sprawiedliwego” modelu UM, jeśli dokładnie rozważysz potencjalne źródła stronniczości w swoich danych i podejmiesz czynności zmierzające do ich zmitygowania. Więcej informacji można znaleźć w szkoleniu Wprowadzenie do uczenia maszynowego.

image17_3.png

Przygotowanie danych

image50_2.png

Podczas zestawiania danych szkoleniowych należy także pamiętać o kilku innych kwestiach:

W każdej kategorii należy zawrzeć wystarczają liczbę przykładów opatrzonych etykietami: AutoML wymaga podania co najmniej 100 przykładów na każdą etykietę. Ogólnie rzecz biorąc, im więcej opatrzonych etykietami obrazu wprowadzisz do procesu szkolenia, tym lepszy będzie model.


Ważne jest, aby w każdej kategorii wprowadzić mniej więcej podobną liczbę przykładów do szkolenia. Jeśli masz dużą ilość danych dla jednej etykiety, wykorzystaj tylko część z nich, aby uniknąć dużych różnic w liczbach przykładów między kategoriami.


Znajdź obrazy, które są wizualnie podobne do tego, co zamierzasz skategoryzować za pomocą modelu. Najlepiej byłoby, gdyby szkoleniowe przykłady były rzeczywistymi danymi pochodzącymi ze samego zbioru danych przeznaczonych do skategoryzowania.

image50_2.png
Leave and lose progress?
By leaving this page you will lose all progress on your current lesson. Are you sure you want to continue and lose your progress?