レッスン 4/ 7

データの準備

5 分で完了

データの準備

ユースケースを評価し、データを入手して準備をする

トレーニングデータとは何か？

Google Cloud のアカウントを正しく設定したら、これで演習の準備は完了です。このレッスンでは、トレーニングデータを収集する際にどのような質問をするべきなのか、また AutoML Vision で使用できるようにするための準備の仕方を学びます。

トレーニングデータの意味するところは、機械学習モデルが認識し、分類できるようにしたい例なのです。この例では、これは衛星画像のセットを提供することや、どれが琥珀採掘の例で、どれがそうでないかをアルゴリズムに伝えることを意味します。

ユースケースから始める

データセットをまとめる際は、常に機械学習に解決を求めている問題から始めてください。次の問いについて考えてみましょう。

あなたが達成しようとしている結果とは？
この成果を得るためには、どのようなカテゴリを認識する必要があるのか？
人間がそれらのカテゴリを認識することは可能なのか？AutoML Vision は人間よりもはるかに多くの画像とカテゴリを処理できますが、人間が特定のカテゴリを認識できない場合、AutoML Vision も同じように難しくなります。
システムが分類するデータの種類と範囲を最もよく反映しているのは、どのような例か？

自分が取り組んでいるニュース記事やネタについて考えてみましょう。これらの問いに対する答えが、ニュース記事やネタへの取り組み方を変え、そのための機械学習が必要かどうかということではないでしょうか。

ユースケースを評価する

以下のような場合が答えになるかもしれません。

モデルに提示する衛星画像で、琥珀採掘の事例を認識できるようにする必要があります。
必要なのは次の2つのカテゴリだけです。「YES：この画像には、普段は琥珀の採掘活動を示すパターンと一致する要素が含まれています」および「NO：この画像には、琥珀採掘を示唆する要素は含まれていません」。
大抵の場合、イエスです。というのも、地面に独特のくぼみ模様のような穴が開いているので、衛星画像では琥珀採掘の事例をはっきりと認識できるからです。しかし、思ったほど簡単ではないかもしれないことがテスト段階でわかります。
異なる背景、異なる穴の密度、異なる色彩。データセットの例が多様であればあるほど、アルゴリズムはより適切に学習します。

データを入手する

必要なデータを確立したら、次のステップはそれを入手する方法を見つけることです。このような場合、Texty が提供するデータセットをすでに持っています。しかし、自分自身のユースケースとなりうるものは何かを考えてみましょう。必要な画像をどこでどのように見つけられるのでしょうか？

あなたの組織が収集したものや、または第三者からそれらを入手できる場合があります。どちらの場合も、居住地域のデータ保護に関する規制とアプリケーションのサービス提供場所を確認してください。

トレーニングデータが完全に「バイアスのない」ものになることはありませんが、データの潜在的なバイアスの原因を慎重に検討し、それらに対処するための措置をとることで、「公正な」機械学習（ML）モデルを構築する可能性を高めることができます。Introduction to Machine Learningをおさらいして、詳細を確認してください。

データを準備する

トレーニングデータをまとめる際に留意すべき点がいくつかあります。

各カテゴリに十分なラベル付きの例を含めます。AutoML Vision が必要とする最小値は、1ラベルにつき100例です。一般的に、トレーニングプロセスに持ち込むことができるラベル付けされた画像が多ければ多いほど、モデルはより優れたものになります。

カテゴリごとにほぼ同じ量のトレーニング例を含めることが大切です。1つのラベルのデータが豊富な場合は、その一部のみを使用することで、1つのカテゴリごとに例の数が大きく異なることを避けることができます。

モデルに分類をさせる予定の画像と視覚的に似ている画像を見つけます。理想的なトレーニングの例は、モデルを使用して分類しようとしているのと同じデータセットから抽出された実環境データです。

おめでとうございます！これで終了ですデータの準備はい、取り組んでいます

あなたへのおすすめ

open_in_new

購読収益を見積もる

レッスン

購読収益を見積もる

開始

アカウントから削除

アカウントに保存

None
open_in_new

プロジェクトシールド:デジタル検閲から保護

レッスン

Distributed Denial of Service（DDoS）の攻撃からサイトを守る無料ツール。

開始

アカウントから削除

アカウントに保存

None
open_in_new

AdSense を活用してデジタル広告収入を増やす

レッスン

AdSense を使ってプログラマティック広告収入を得る

開始

アカウントから削除

アカウントに保存

None

このレッスンに対する評価をお聞かせください。

お寄せいただいたフィードバックは、レッスンの継続的な改善に役立てさせていただきます。

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

データの準備

トレーニングデータとは何か？

ユースケースから始める

ユースケースを評価する

データを入手する

データを準備する

購読収益を見積もる

プロジェクトシールド:デジタル検閲から保護

AdSense を活用してデジタル広告収入を増やす

探しているリソース:

データの準備

トレーニングデータとは何か？

ユースケースから始める

ユースケースを評価する

データを入手する

データを準備する

購読収益を見積もる

プロジェクト シールド:デジタル検閲から保護

AdSense を活用してデジタル広告収入を増やす

プロジェクトシールド:デジタル検閲から保護