機械学習が役立つかもしれないとわかったとき、どう感じるか
機械学習について、およびモデルをトレーニングするさまざまな手法について理解が深まってきたところで、おそらく、機械学習が日常業務でどのように役立つか疑問に思われていることでしょう。このレッスンでは、まさにそれについて説明します。
このテーマについて最も効果的に構成されているのが、Quartz AI Studioです。以降の節では、機械学習が役立つ場合の状況およびそこで感じる気持ちをある程度理解できるように、このモデルを(許可を得て)借用します。
これらのドキュメントすべてをどのように読むことができますか?
ジャーナリズムをテーマにした映画では、記者たちが窓のない部屋で数か月かけて何箱もの文書を読み、汚職に関する特ダネを明らかにする調査を称賛する傾向があります。ほんの少しの時間で同じ結果を達成できるとしたらどうでしょうか?
機械学習は、まさにそれを実現するのに役立ちます。そのため、世界中の調査ジャーナリストがすでに使用しています。
2019年、調査ジャーナリストの国際コンソーシアム(ICIJ)は、ルアンダリークスと総称される700,000件以上の漏えい文書を受け取りました。これらすべてのファイルを分析するため、ICIJはQuartzと提携ししました。その調査チームは機械学習モデルを構築し、ジャーナリストが漏洩文書の保管所から求めている種類のドキュメントを見つけるのを支援しました。
このテキストのユニークな点を知るにはどうすればよいですか?
記者が記事を書く際に直面する可能性のある別の課題は、一連の文書を類似の性質の文例データベースと比較する機能です。たとえば、ある政治記者は、大統領の一般教書演説を、他の大統領が行ったすべての演説と年代別に比較したいと思うかもしれません。
機械学習は、この種の課題には非常に優れた仕方で対処できます。
2017年、ProPublicaはコンピューターモデルを使用し、米国議会の個々のメンバーからのプレスリリースを、同時期に発行されたすべての議会のプレスリリースと比較して分析しました。これにより、記者たちは議員が最も関心を持った、あるいは少なくとも他の議員よりも頻繁に話題にしたトピックについて知ることができました。
大量の画像を分析するにはどうしたらいいですか?
世界では1日に数十億枚の写真が撮影されています。そして、これらの前例のない量の画像の中から、記者たちは記事のヒントを見つけるかもしれません。視覚情報のデータベースの中から特定の詳細情報を見つけるよう、コンピューターを教える方法があった良いのですが...もうお分かりですね。機械学習を利用するのです。
ウクライナのデータジャーナリズム機関Textyは、ウクライナ全土にわたる違法な琥珀採掘場の検出に機械学習を使用しました。さまざまなアルゴリズムを組み合わせ、既存の琥珀採掘場のサンプルを使って機械学習システムをトレーニングしたところ、衛星画像のセットで新たなサンプルを見つけることができたのです。
The resulting story included an online map in which a viewer can zoom into pictures of amber mines across the country.
こうしたレコードをさらに見つけるにはどうすればよいですか?
単語、画像、そして数字。コンピュータが人間よりも上手にできるたくさんのことの1つは、数値データを大規模に処理することです。機械学習が役立つ別の事例は、分析する数値レコードが数千ある場合、特にパターンと類似点を見つけたい場合です。
2017年にBuzzFeed Newsが秘密偵察機に関する記事で行ったのはそのことでした。これは、記事を目的として機械学習を利用したジャーナリズムの初期の高レベル例の1つとして、かなりの騒ぎを引き起こしました。
彼らは、「ランダムフォレスト」アルゴリズムに対し、FBIや国土安全保障省が運用している偵察機と類似の飛行パターンを使って航空機をふるいにかけるよう指示してコンピューターを訓練し、偵察機を見つけました。
機械学習はどんな問題の解決を支援できますか?
琥珀採掘場、汚職スキャンダル、偵察機、および一般教書演説。お分かりのように、機械学習は、データを使って重要な記事のヒントを見つけ、それを伝える能力を強化することにより作業を支援する、非常に便利なものです。
しかし同時に、機械学習は魔法ではないことも明らかになっているはずです。自分ができなかったことができるようになるわけではない、と言う人さえいるかもしれません。自分ためにたゆまず働いてくれる千人のインターンがいれば、と。
それでも、機械学習が、あなたが書き上げたい記事の作成を支援してくれる適切なツールかどうかを検討するのは、完全にあなた次第です。それを評価した後で、管理できない量の情報をふるいにかけたり、調査結果を使ってジャーナリズムを強化したりするのに機械学習が役立つことを確信できます。