Lektion 4 von 7

Datenaufbereitung

5 Minuten abzuschließen

Datenaufbereitung

Beurteilen Sie Ihren Anwendungsfall, Quelle und bereiten Sie Ihre Daten vor

Was sind Trainingsdaten?

Wenn Sie Ihr Google Cloud-Konto ordnungsgemäß eingerichtet haben, sind Sie nun bereit für die Übung. In dieser Lektion erfahren Sie, welche Fragen Sie bei der Erfassung der Trainingsdaten stellen sollten und wie Sie diese für die Verwendung von AutoML Vision vorbereiten.

Mit Trainingsdaten meinen wir Beispiele dafür, was unser ML-Modell erkennen und kategorisieren können soll. In unserem Fall bedeutet dies, eine Reihe von Satellitenbildern bereitzustellen und dem Algorithmus mitzuteilen, welche davon Beispiele für den Bernsteinabbau sind und welche nicht.

Beginnen Sie mit Ihrem Anwendungsfall

Gehen Sie beim Zusammenstellen des Datensatzes immer von dem Problem aus, bei dessen Lösung Sie ML um Hilfe bitten. Überlegen Sie sich die folgenden Fragen:

Was ist das Ergebnis, das Sie erreichen wollen?
Welche Arten von Kategorien müssten Sie erkennen, um dieses Ergebnis zu erreichen?
Ist es für Menschen möglich, diese Kategorien zu erkennen? Obwohl AutoML Vision viel mehr Bilder und Kategorien verarbeiten kann als Menschen, hat es auch AutoML Vision schwer, wenn ein Mensch eine bestimmte Kategorie nicht erkennen kann.
Welche Arten von Beispielen würden am besten die Art und den Umfang der Daten widerspiegeln, die Ihr System klassifizieren wird?

Denken Sie über eine Geschichte nach, an der Sie gerade arbeiten. Wie verändern die Antworten auf diese Fragen Ihre Herangehensweise an die Geschichte und ob Sie dafür maschinelles Lernen benötigen?

Bewerten Sie Ihren Anwendungsfall

In unserem Fall könnten dies unsere Antworten sein:

Wir wollen, dass unser Modell in der Lage ist, Vorkommen von Bernsteinabbau auf Satellitenbildern, die wir ihm präsentieren werden, zu erkennen.
Wir brauchen nur zwei Kategorien: „JA: dieses Bild enthält Elemente, die mit Mustern übereinstimmen, die normalerweise auf Bernsteinabbauaktivitäten hinweisen“ und „NEIN: dieses Bild enthält keine Elemente, die auf Bernsteinabbau hinweisen“.
Meistens ja: Vorkommen von Bernsteinabbau sind auf Satellitenbildern aufgrund des ausgeprägten pockmark-ähnlichen Musters von Löchern im Boden gut zu erkennen. Aber wir werden in der Testphase sehen, dass es vielleicht nicht immer so einfach ist, wie wir denken.
Unterschiedlicher Hintergrund, unterschiedliche Dichte der Löcher, unterschiedliche Farben. Je vielfältiger die Beispiele in unserem Datensatz sind, desto besser wird der Algorithmus lernen.

Beschaffen Sie Ihre Daten

Sobald Sie festgestellt haben, welche Daten Sie benötigen, besteht der nächste Schritt darin, einen Weg zu finden, diese Daten zu beschaffen. In unserem Fall haben wir bereits den von Texty bereitgestellten Datensatz. Aber denken Sie daran, was Ihr eigener Anwendungsfall sein könnte: Wie und wo können Sie die Bilder, die Sie benötigen, finden?

Möglicherweise können Sie sie aus den Sammlungen Ihrer Organisation oder von Dritten beziehen. Stellen Sie in beiden Fällen sicher, dass Sie die Datenschutzbestimmungen in Ihrer Region und an den Standorten, für die Ihr Antrag gilt, überprüfen.

Keine Trainingsdaten werden jemals vollkommen „unvoreingenommen“ sein, aber können Sie Ihre Chancen, ein faires Modell zu erstellen, verbessern, wenn Sie mögliche Quellen der Voreingenommenheit in Ihren Daten sorgfältig prüfen und Schritte unternehmen, um diese zu beseitigen. Lesen Sie unsere Einführung in das maschinelle Lernen, um mehr darüber zu erfahren.

Bereiten Sie Ihre Daten vor

Bei der Zusammenstellung der Trainingsdaten sind noch ein paar Dinge zu beachten:

Fügen Sie in jede Kategorie genügend gekennzeichnete Beispiele ein: Das von AutoML Vision geforderte Minimum beträgt 100 Beispiele pro Kennzeichnung. Im Allgemeinen gilt: Je mehr gekennzeichnete Bilder Sie in den Trainingsprozess einbringen können, desto besser wird Ihr Modell sein.

Es ist wichtig, für jede Kategorie etwa gleich viele Trainingsbeispiele aufzunehmen. Wenn Sie eine Fülle von Daten für eine Kennzeichnung haben, verwenden Sie nur einen Teil davon, um zu vermeiden, dass Sie eine sehr unterschiedliche Anzahl von Beispielen pro Kategorie haben.

Finden Sie Bilder, die dem, was Sie das Modell kategorisieren lassen wollen, visuell ähnlich sind. Im Idealfall handelt es sich bei Ihren Trainingsbeispielen um reale Daten, die aus demselben Datensatz stammen, den Sie mit dem Modell klassifizieren möchten.

Glückwunsch! Sie haben folgende Lektion abgeschlossen: Datenaufbereitung Ja, der Prozess ist im Gange

Empfehlungen für Sie

open_in_new

Google Translate: Übersetzungen immer und überall

Lektion

Sprechen Sie nahezu jede Sprache auf der Welt.

Starten

Von Ihrem Konto entfernen

In Ihrem Konto speichern

None
open_in_new

GNI Live

Lektion

GNI Live

Starten

Von Ihrem Konto entfernen

In Ihrem Konto speichern

None
open_in_new

Video: Erste Schritte mit Pinpoint

Lektion

Mit dem Recherchetool Pinpoint von Google können Sie Tausende Dokumente durchsuchen und analysieren.

Starten

Von Ihrem Konto entfernen

In Ihrem Konto speichern

None

Wie würden Sie diese Lektion bewerten?

Ihr Feedback hilft uns dabei, unsere Lektionen zu verbessern.

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Datenaufbereitung

Was sind Trainingsdaten?

Beginnen Sie mit Ihrem Anwendungsfall

Bewerten Sie Ihren Anwendungsfall

Beschaffen Sie Ihre Daten

Bereiten Sie Ihre Daten vor

Google Translate: Übersetzungen immer und überall

GNI Live

Video: Erste Schritte mit Pinpoint

Ich suche Ressourcen zu

Datenaufbereitung

Was sind Trainingsdaten?

Beginnen Sie mit Ihrem Anwendungsfall

Bewerten Sie Ihren Anwendungsfall

Beschaffen Sie Ihre Daten

Bereiten Sie Ihre Daten vor

Google Translate: Übersetzungen immer und überall

GNI Live

Video: Erste Schritte mit Pinpoint