データの準備
ユースケースを評価し、データを入手して準備をする
トレーニングデータとは何か?
Google Cloud のアカウントを正しく設定したら、これで演習の準備は完了です。このレッスンでは、トレーニングデータを収集する際にどのような質問をするべきなのか、また AutoML Vision で使用できるようにするための準備の仕方を学びます。
トレーニングデータの意味するところは、機械学習モデルが認識し、分類できるようにしたい例なのです。この例では、これは衛星画像のセットを提供することや、どれが琥珀採掘の例で、どれがそうでないかをアルゴリズムに伝えることを意味します。
ユースケースから始める
データセットをまとめる際は、常に機械学習に解決を求めている問題から始めてください。次の問いについて考えてみましょう。
- あなたが達成しようとしている結果とは?
- この成果を得るためには、どのようなカテゴリを認識する必要があるのか?
- 人間がそれらのカテゴリを認識することは可能なのか?AutoML Vision は人間よりもはるかに多くの画像とカテゴリを処理できますが、人間が特定のカテゴリを認識できない場合、AutoML Vision も同じように難しくなります。
- システムが分類するデータの種類と範囲を最もよく反映しているのは、どのような例か?
自分が取り組んでいるニュース記事やネタについて考えてみましょう。これらの問いに対する答えが、ニュース記事やネタへの取り組み方を変え、そのための機械学習が必要かどうかということではないでしょうか。
ユースケースを評価する
以下のような場合が答えになるかもしれません。
- モデルに提示する衛星画像で、琥珀採掘の事例を認識できるようにする必要があります。
- 必要なのは次の2つのカテゴリだけです。「YES: この画像には、普段は琥珀の採掘活動を示すパターンと一致する要素が含まれています」および「NO: この画像には、琥珀採掘を示唆する要素は含まれていません」。
- 大抵の場合、イエスです。というのも、地面に独特のくぼみ模様のような穴が開いているので、衛星画像では琥珀採掘の事例をはっきりと認識できるからです。しかし、思ったほど簡単ではないかもしれないことがテスト段階でわかります。
- 異なる背景、異なる穴の密度、異なる色彩。データセットの例が多様であればあるほど、アルゴリズムはより適切に学習します。
データを入手する
必要なデータを確立したら、次のステップはそれを入手する方法を見つけることです。このような場合、Texty が提供するデータセットをすでに持っています。しかし、自分自身のユースケースとなりうるものは何かを考えてみましょう。必要な画像をどこでどのように見つけられるのでしょうか?
あなたの組織が収集したものや、または第三者からそれらを入手できる場合があります。どちらの場合も、居住地域のデータ保護に関する規制とアプリケーションのサービス提供場所を確認してください。
トレーニングデータが完全に「バイアスのない」ものになることはありませんが、データの潜在的なバイアスの原因を慎重に検討し、それらに対処するための措置をとることで、「公正な」機械学習(ML)モデルを構築する可能性を高めることができます。Introduction to Machine Learningをおさらいして、詳細を確認してください。
データを準備する
トレーニングデータをまとめる際に留意すべき点がいくつかあります。
各カテゴリに十分なラベル付きの例を含めます。AutoML Vision が必要とする最小値は、1ラベルにつき100例です。一般的に、トレーニングプロセスに持ち込むことができるラベル付けされた画像が多ければ多いほど、モデルはより優れたものになります。
カテゴリごとにほぼ同じ量のトレーニング例を含めることが大切です。1つのラベルのデータが豊富な場合は、その一部のみを使用することで、1つのカテゴリごとに例の数が大きく異なることを避けることができます。
モデルに分類をさせる予定の画像と視覚的に似ている画像を見つけます。理想的なトレーニングの例は、モデルを使用して分類しようとしているのと同じデータセットから抽出された実環境データです。