Datenaufbereitung
Beurteilen Sie Ihren Anwendungsfall, Quelle und bereiten Sie Ihre Daten vor
Was sind Trainingsdaten?
Wenn Sie Ihr Google Cloud-Konto ordnungsgemäß eingerichtet haben, sind Sie nun bereit für die Übung. In dieser Lektion erfahren Sie, welche Fragen Sie bei der Erfassung der Trainingsdaten stellen sollten und wie Sie diese für die Verwendung von AutoML Vision vorbereiten.
Mit Trainingsdaten meinen wir Beispiele dafür, was unser ML-Modell erkennen und kategorisieren können soll. In unserem Fall bedeutet dies, eine Reihe von Satellitenbildern bereitzustellen und dem Algorithmus mitzuteilen, welche davon Beispiele für den Bernsteinabbau sind und welche nicht.
Beginnen Sie mit Ihrem Anwendungsfall
Gehen Sie beim Zusammenstellen des Datensatzes immer von dem Problem aus, bei dessen Lösung Sie ML um Hilfe bitten. Überlegen Sie sich die folgenden Fragen:
- Was ist das Ergebnis, das Sie erreichen wollen?
- Welche Arten von Kategorien müssten Sie erkennen, um dieses Ergebnis zu erreichen?
- Ist es für Menschen möglich, diese Kategorien zu erkennen? Obwohl AutoML Vision viel mehr Bilder und Kategorien verarbeiten kann als Menschen, hat es auch AutoML Vision schwer, wenn ein Mensch eine bestimmte Kategorie nicht erkennen kann.
- Welche Arten von Beispielen würden am besten die Art und den Umfang der Daten widerspiegeln, die Ihr System klassifizieren wird?
Denken Sie über eine Geschichte nach, an der Sie gerade arbeiten. Wie verändern die Antworten auf diese Fragen Ihre Herangehensweise an die Geschichte und ob Sie dafür maschinelles Lernen benötigen?
Bewerten Sie Ihren Anwendungsfall
In unserem Fall könnten dies unsere Antworten sein:
- Wir wollen, dass unser Modell in der Lage ist, Vorkommen von Bernsteinabbau auf Satellitenbildern, die wir ihm präsentieren werden, zu erkennen.
- Wir brauchen nur zwei Kategorien: „JA: dieses Bild enthält Elemente, die mit Mustern übereinstimmen, die normalerweise auf Bernsteinabbauaktivitäten hinweisen“ und „NEIN: dieses Bild enthält keine Elemente, die auf Bernsteinabbau hinweisen“.
- Meistens ja: Vorkommen von Bernsteinabbau sind auf Satellitenbildern aufgrund des ausgeprägten pockmark-ähnlichen Musters von Löchern im Boden gut zu erkennen. Aber wir werden in der Testphase sehen, dass es vielleicht nicht immer so einfach ist, wie wir denken.
- Unterschiedlicher Hintergrund, unterschiedliche Dichte der Löcher, unterschiedliche Farben. Je vielfältiger die Beispiele in unserem Datensatz sind, desto besser wird der Algorithmus lernen.
Beschaffen Sie Ihre Daten
Sobald Sie festgestellt haben, welche Daten Sie benötigen, besteht der nächste Schritt darin, einen Weg zu finden, diese Daten zu beschaffen. In unserem Fall haben wir bereits den von Texty bereitgestellten Datensatz. Aber denken Sie daran, was Ihr eigener Anwendungsfall sein könnte: Wie und wo können Sie die Bilder, die Sie benötigen, finden?
Möglicherweise können Sie sie aus den Sammlungen Ihrer Organisation oder von Dritten beziehen. Stellen Sie in beiden Fällen sicher, dass Sie die Datenschutzbestimmungen in Ihrer Region und an den Standorten, für die Ihr Antrag gilt, überprüfen.
Keine Trainingsdaten werden jemals vollkommen „unvoreingenommen“ sein, aber können Sie Ihre Chancen, ein faires Modell zu erstellen, verbessern, wenn Sie mögliche Quellen der Voreingenommenheit in Ihren Daten sorgfältig prüfen und Schritte unternehmen, um diese zu beseitigen. Lesen Sie unsere Einführung in das maschinelle Lernen, um mehr darüber zu erfahren.
Bereiten Sie Ihre Daten vor
Bei der Zusammenstellung der Trainingsdaten sind noch ein paar Dinge zu beachten:
Fügen Sie in jede Kategorie genügend gekennzeichnete Beispiele ein: Das von AutoML Vision geforderte Minimum beträgt 100 Beispiele pro Kennzeichnung. Im Allgemeinen gilt: Je mehr gekennzeichnete Bilder Sie in den Trainingsprozess einbringen können, desto besser wird Ihr Modell sein.
Es ist wichtig, für jede Kategorie etwa gleich viele Trainingsbeispiele aufzunehmen. Wenn Sie eine Fülle von Daten für eine Kennzeichnung haben, verwenden Sie nur einen Teil davon, um zu vermeiden, dass Sie eine sehr unterschiedliche Anzahl von Beispielen pro Kategorie haben.
Finden Sie Bilder, die dem, was Sie das Modell kategorisieren lassen wollen, visuell ähnlich sind. Im Idealfall handelt es sich bei Ihren Trainingsbeispielen um reale Daten, die aus demselben Datensatz stammen, den Sie mit dem Modell klassifizieren möchten.
-
Google Fact Check Tools
LektionThese tools allow you to search for stories and images that have already been debunked and lets you add ClaimReview markup to your own fact checks. -
Wie Sie maschinelles Lernen nutzen können
LektionVerstehen, in welchen Fällen ML die Lösung für Ihr Problem sein könnte. -
Die Zugriffszahlen mit der Google Suche steigern
LektionBeziehung zu Ihren besten Zielgruppen aufbauen