メイン コンテンツにスキップ
ダッシュボードに移動
どこから手をつければよいかわからない方は、簡単なクイズに答えて、パーソナライズされたおすすめを参照してください。
レッスン 9/ 13
Google スプレッドシート:インターネットからのデータ収集
5 分 で完了

Google スプレッドシート:インターネットからのデータ収集

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg

Google スプレッドシートを使って独自のデータセットを作成する。

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg

Google スプレッドシートを使って独自のデータセットを作成する方法を学びます。

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

インターネット上には、ストーリーの調査や可視化に使用できる大量のデータがあります。データを見つけ、使用できるフォーマットにすることが最初のステップです。

  1. 新しいスプレッドシートを作成する。
  2. 信頼できるデータを見つける。
  3. データをGoogle スプレッドシートへインポートする。
  4. トラブルシューティングとエラーメッセージ。 
  5. データを表示する。

その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

https://newsinitiative.withgoogle.com/training/course/data-journalism


DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

新しいスプレッドシートを作成する。

Starting a new spreadsheet.


まず、空白のスプレッドシートを作成する必要があります。 sheets.google.comに移動します。[新しいスプレッドシートを作成する]の下で、+アイコンをクリックします。


スプレッドシートに名前を付けるには、左上隅のテキストをクリックします。このスプレッドシートに「最も興行収益を上げている映画」という名前を付けましょう。

信頼できるデータを見つける。

政府機関のサイト、科学出版物、Wikipedia、Google Public Data Explorerなどからデータを入手することで、ほとんどすべての話題に関するデータストーリーを伝えることができます。このレッスンでは、映画に関するデータを使って練習します。



google.comに移動して、最も興行収益を上げている映画を検索します。最初に表示されるリンクの1つは、複数のテーブルがあるWikipediaのエントリだと思われます。「史上最も興行収益を上げている上位50の映画」と呼ばれる1つのリストが複数の参照を引用しているので、そのリストを使えます。信頼できるデータソースからデータを収集していることを常にご確認ください。


このテーブルをGoogle スプレッドシートにインポートするには、URLを表示して右クリックし、コピーを選択することで、Wikipediaのページのアドレスをコピーします。

データをGoogle スプレッドシートへインポートする。

importHTMLを使って、Wikipediaからスプレッドシートにテーブルをインポートします。Webページからテーブルやリストをインポートするのに役立つように、この強力な数式がGoogle スプレッドシートに組み込まれています。importHTMLが機能する仕組みの詳細を知り、例を参照するには、 Google スプレッドシートのドキュメントページをお読みください。



importHTMLツールが機能するには、次の3つのパラメーターが必要です。1)URL2)テーブルまたはリストなど、収集しているデータの種類3)HTMLコードでテーブルまたはリストの位置を表す番号。この例では、必要なテーブルがHTMLに表示される最初のテーブルであるため、テーブルの最初のインスタンスには1という番号が付けられます。試行錯誤によってテーブルの位置(1、2、3など)を見つけるか、またはWebページを右クリックし、Inspect> Findの順に選択してコード内のテーブルを見つけます。


作成した空白シートに移動して、セルA1に移動します。種類:=importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "table", 1)


URLと要素の種類(この場合はテーブル)が引用符で囲まれており、これによってパラメーターが緑色になることに注意します。最後のパラメーターは引用符で囲まれていない数字で、青色で表示されます。

トラブルシューティングとエラーメッセージ。

ScrapingData_Troubleshooting_and_error_messages.jpg

[エラー!]メッセージが発生したら、例に示すように、引用符が二重引用符であることを確認してください。 


[値!]エラーが発生したら、セル内に余分な括弧や引用符がないことを確認してください。

ScrapingData_Troubleshooting_and_error_messages.jpg

データを表示する。

ScrapingData_Displaying_your_data_mcss7kz.jpg

importHTMLの数式が正しいことを確認したら、Enterキーを押してGoogle スプレッドシートが処理するまで数秒待ちます。テーブルには、書式設定されたすべての行と列が読み込まれます。 


このデータを可視化するために削除することが必要な要素が、いくつかあることに注意します。これについては次のレッスン「Google スプレッドシート:データのクリーニング」で学びます。

ScrapingData_Displaying_your_data_mcss7kz.jpg

おめでとうございます!

CleaningData_Overview_9zSutWO.jpg

「Google スプレッドシート:インターネットからのデータ収集」を終了されました。


引き続きデジタルジャーナリズムのスキルを磨き、Google News Initiative認証について勉強していただくには、トレーニングセンターのWebサイトに移動して、別のレッスンを受けてください:

その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

newsinitiative.withgoogle.com/training/course/data-journalism


CleaningData_Overview_9zSutWO.jpg
おめでとうございます!これで終了です Google スプレッドシート:インターネットからのデータ収集 はい、取り組んでいます
あなたへのおすすめ
このレッスンに対する評価をお聞かせください。
お寄せいただいたフィードバックは、レッスンの継続的な改善に役立てさせていただきます。
移動して進行状況が失われてもよろしいですか?
このページから移動すると、現在のレッスンの進行状況がすべて失われます。続行して進行状況が失われてもよろしいですか?