Ocena i test
Jak interpretować dane wyjściowe modelu i ocenić jego wydajność
Precyzja i zdolność przywoływania informacji
Gdy model zostanie wytrenowany, zobaczysz podsumowanie wydajności modelu wraz z punktacją za precyzję („Precision”) oraz przywoływanie informacji („Recall”).
Precyzja modelu określa, jaka część obrazów zidentyfikowanych przez model jako pozytywne powinna być faktycznie sklasyfikowana do tej grupy . Przywoływanie informacji to informacja o tym, jaka proporcja pozytywnych obrazów została zidentyfikowana poprawnie.
Nasz model poradził sobie bardzo dobrze w obu kategoriach, zyskując w nich powyżej 97% punktów. Zobaczmy, co to dokładniej oznacza.
Ocena wydajności modelu
Kliknij Oceń „Evaluate” w menu widocznym na górze i zacznijmy poznawać interfejs. Ponownie zostanie wyświetlona punktacja precyzji i przywoływania informacji. W naszym przypadku wynik precyzji mówi nam, że 97% obrazów testowych, które model zidentyfikował jako przykłady wydobycia bursztynu, rzeczywiście zawierało ślady wydobycia bursztynu.
Wynik przywoływania informacji mówi nam, że 97% obrazów testowych zawierających ślady wydobycia bursztynu zostało poprawnie opatrzonych stosowną etykietą.
Próg zaufania (ang. Confidence threshold) oznacza liczbową wartość zaufania, którą model musi osiągnąć, aby opatrzyć obraz etykietą. Im mniejszy próg zaufania, tym więcej obrazów zostanie zaklasyfikowanych przez model – a także tym większe ryzyko niepoprawnego sklasyfikowania niektórych obrazów.
Osoby, które chcą dowiedzieć się więcej i zbadać krzywe precyzji i przywoływania informacji, mogą kliknąć stosowne łącze w interfejsie.
Fałszywe pozytywy i fałszywe negatywy
Następnie spójrzmy na macierz niepewności (Confusion matrix). Im wyższa jest punktacja na niebieskim tle, tym lepsze są wyniki modelu. W tym przykładzie widzimy, że model uzyskał bardzo dobrze wyniki punktowe.
Wszystkie obrazy, które powinny zostać opatrzone etykietą negatywów (brak wydobycia bursztynu) zostały poprawnie rozpoznane przez model. Poprawnie rozpoznano też 82% obrazów zawierających ślady wydobycia bursztynu.
Nie mamy fałszywych pozytywów – żadne obrazy nie zostały błędnie oznakowane jako przykłady wydobycia bursztynu – i tylko 12% fałszywych negatywów, tj. obrazów przedstawiających ślady wydobycia bursztynu, których model nie rozpoznał.
Taki stan rzeczy jest odpowiedni dla celów naszego dochodzenia w sprawie nielegalnego wydobycia bursztynu: lepiej pominąć kilka pozytywnych przykładów, niż przedstawić jako dowód zdjęcia, na których nie ma śladów wydobycia bursztynu.
Kliknij filtry po lewej, aby zobaczyć, które obrazy testowe zostały poprawnie lub niepoprawnie zaklasyfikowane przez model.
Nie masz pewności, czy model jest godzien zaufania? Kliknij Testuj i użyj („Test & Use”), aby załadować nowe zdjęcia satelitarne – ze śladami wydobycia bursztynu lub bez nich – aby sprawdzić, czy model poprawnie je etykietuje.
Test i ponowne szkolenie
Kilka kwestii do rozważenia przed zakończeniem>:
Być może zastanawiasz się, dlaczego niektóre odpowiedzi były błędne, mimo że model dostał listę właściwych odpowiedzi na początku szkolenia. Przypominamy, że dokonaliśmy podziału obrazów na zestawy szkoleniowe, weryfikacyjne i testowe, które opisaliśmy w poprzedniej lekcji.
W tym przypadku prawie wszystkie obrazy zostały poprawnie sklasyfikowane. Ale nie zawsze tak będzie. Jeśli osiągi wytrenowanego modelu są według ciebie niesatysfakcjonujące, zawsze możesz zaktualizować i udoskonalić swój zestaw danych oraz ponownie przeszkolić model. Możesz dokładnie przeanalizować, co poszło nie tak w pierwszej iteracji i na przykład dodać do swojego zestawu szkoleniowego więcej obrazów podobnych do tych, które zostały błędnie sklasyfikowane przez model.
Tak jak u ludzi, uczenie się jest procesem iteracyjnym.
-
Stwórz strategię pozyskiwania funduszy
LekcjaWybierz odpowiednie źródła finansowania swojego dziennikarstwa -
How to make a good Web Story
LekcjaCreating a strong, compelling Web Story is as easy as creating an article or a video, and the interactive nature of Web Stories plays to the rapidly shifting desires and demands of online audiences. -
Tworzenie produktów związanych z wiadomościami
LekcjaProjektowanie, tworzenie prototypów i testowanie produktów dotyczących wiadomości