機械学習のさまざまな手法
機械学習にはさまざまな手法があります。一般に、機械学習のさまざまな手法は、プログラマが提供するフィードバックの種類と量だけでなく、解決しようとする問題の種類によって区別されます。
機械学習は、大きく3つのサブエリアに分けることができます。
- 教師あり学習
- 教師なし学習
- 強化学習
これは整然とした分類に見えるかもしれませんが、特定の手法をどれに分類するかは必ずしも簡単なことではありません。これら3つのカテゴリの違いを見てみましょう。
教師あり学習
猫と犬を区別して認識するよう機械を教えたいとしましょう。「猫」または「犬」とラベル付けされた写真を入力として提供します。アルゴリズムはサンプルを調査して学習し、猫と犬を区別する特徴を認識し、分析するよう求められる新しい画像ごとに正しいラベル付けを行います。
教師あり学習では、機械はラベルが付けられたサンプルを使って学習する必要があります。これらのサンプルは、正しいラベルを自動的に割り当てるアルゴリズムのトレーニングに使用されます。
ジャーナリズムにおいて、教師あり学習では、たとえば、調査する価値のある興味深い文書を見つけるアルゴリズムを訓練できます。これは、大量の文書を扱う必要のある調査ジャーナリストにとってすでに有用であることが数多く実証されています。
教師なし学習
教師なし学習では、マシンに提供されるサンプルにラベルが付けられていません。このアルゴリズムは、類似した特性を共有するレコードをまとめてクラスター化することを目的に、それ自体で学習を行い、データのパターンを認識します。
つまり、アルゴリズムは、分析を依頼されたラベルなしのデータの構造を発見するようにトレーニングされています。これは、企業が顧客を類似した消費行動を示すカテゴリにグループ化するなど、顧客をよりよく理解するために使用されることがあります。
ジャーナリズムでは、この種の技術は、調査ジャーナリストが脱税を明らかにしたり、選挙運動財政の記者が複数の寄付記録を同一の寄付者に結び付けたりするのに利用されています。
強化学習
3番目のタイプは強化学習です。教師なし学習と同様に、ラベル付きデータは必要ありません。代わりに、試行錯誤を通じて、言い換えればミスを犯すことによって、実行すべきアクションを学習するという考え方に基づいています。最初は、アルゴリズムはランダムに動作して環境を探索しますが、正しい選択をしたときに報酬が与えられることで、時間の経過とともに学習してゆきます。
一般に強化学習はゲームをプレイするように機械を教えるために使用されます。最も有名な例は、DeepMindが開発したコンピュータープログラムAlphaGoで、2016年に中国のボードゲームである碁で世界のトッププレーヤーであるLee Sedolに勝利しました。
ジャーナリズム向けのアプリケーションはまだまれですが、強化学習は見出しテストなどに使用されています。
ディープラーニングについてはどうですか?
ディープラーニングは、前述の計算能力向上のおかげで近年その名が知られるようになった別の学習手法です。それ自体は機械学習のサブフィールドですが、先ほど説明した手法とは異なり、ディープラーニングは関係する数学モデルの複雑さと深さ(名前の由来)を特徴とします。
モデルの深さとは、アルゴリズムがより複雑な構造を徐々に学習することを可能にする複数の分析層の使用を指します。ディープラーニングは人工神経回路網をベースとしており、そのアーキテクチャは人間の生体系(目を通して入力された視覚情報が脳によりどのように処理されるかなど)から着想を得ています。
さまざまな学習モデル…だから何?
教師あり、教師なし、強化、ニューラルネットワーク...あなたの頭はクラクラしているに違いありません。
このレッスンは、あなたの興味を失わせるように作られてはいません。機械学習の分野の複雑さを理解し、そのサブフィールドについて触れることは重要ですが、データサイエンスの奥深くに(意図して)入り込む場合を除き、このレッスンで覚えておいてほしいことは非常に簡単です。それは、ソリューションが異なれば、成功に向けて取り組む機械学習の手法も異なるということです。
次のレッスンでは、あなたの仕事のどのような状況が機械学習ソリューションに適しているかを見ていきます。その後、機械がバイアスの概念を学習して導入できるようにするプロセスを検討し、それに対処するためのヒントをいくつか示します。