メイン コンテンツにスキップ
ダッシュボードに移動
どこから手をつければよいかわからない方は、簡単なクイズに答えて、パーソナライズされたおすすめを参照してください。
レッスン 11/ 17
Google スプレッドシート:データのクリーニング
データ ジャーナリズム
許可:Googleデータソース。
Googleトレンド:データを理解する
Google Data GIF Maker
データソース:Global Forest Watch
Google翻訳:検索結果を改良する。
データソース:Election Databot.
check_box_outline_blank Data Journalism: Take the Quiz
コース
0% 完了
5 分 で完了

Google スプレッドシート:データのクリーニング

CleaningData_Overview_1pa7Mmc.jpg

分析と可視化の対象データを準備する。

CleaningData_Overview_1pa7Mmc.jpg

レッスンの概要

CleaningData_Overview.jpg

可視化に備えてデータをクリーニングする方法を学ぶ。


前のレッスン「Google スプレッドシート:インターネットからデータを収集する」では、importHTMLを使ってWebからテーブルをインポートする方法を学びました。このレッスンでは、データをクリーニングして分析と可視化の準備ができるようにする方法を学びます。

  1. データを編集可能にする。
  2. データを編集する。 
  3. 検索と置換による一括編集。


その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

newsinitiative.withgoogle.com/training/course/data-journalism


CleaningData_Overview.jpg

データを編集可能にする。

「データのクリーニング」とは、作業に使用できるようにすることです。テーブルの整合性を保ち、矛盾が生じないようにして、パソコンが理解できるように構造化します。つまり、重複する行を削除し、目的外の文字を削除して、一種類のデータ(数値やテキストなど。ただし両方ではない)のみが列に格納されていることを確認します。まず、データを編集可能にする必要があります。


この表はimportHTMLの結果を示しています。このフォームでは、データソース(Wikipediaのページ)に対する変更はここに自動的に反映され、少なくとも1時間に1回更新されます。ただし、セル内の値を編集して目的外の文字を削除することはできません。Google スプレッドシートで形式を選択して貼り付けによって、データの静的スナップショットを作成します。これにより、importHTMLによってテーブルを自動的に更新する機能が失われますが、編集することはできます。


シートの左上の長方形を左クリックして、すべてのデータを選択します。すべてのセルが強調表示されたら、編集>コピーの順にクリックします。編集>形式を選択して貼り付け>値のみを貼り付けの順に選択します。これで、テーブルを編集できるようになりました。


編集を簡単にするには、列の名前で行を固定します。灰色のバーの上にある1行目の直上の行にマウスカーソルを合わせます。カーソルが手袋の形に変わります。バーを1行目の末尾までドラッグして、バーをそこでドロップします。これで、一番上の行は固定されました。

データを編集する。

importHTMLは、Wikipediaのテーブルから残りの文字をインポートします。これらの文字は人間が使えても、パソコンは使うことができません。削除して、テーブルをきれいにしましょう!


この練習でF列は必要がないため、列の上部にあるFの文字を右クリックして削除を選択します。


A14行の番号13の横に文字「F」があり、セルB27の番号4の横に「TS3」があります。13と4の数字だけが残るようにこれらの文字を削除します。


セルB40とB48の余分な文字を削除して、19と8だけを残します。D17に対しても同じ処理をして、先頭の「F8」を削除します。

検索と置換による一括編集。

ここではC列を見ます。検索と置換機能を使って、行ごとではなく先頭と末尾の * 文字を一括して削除しましょう。


列の一番上にある文字Cを左クリックして、C列を選択します。編集>検索と置換の順に選択します。


最初のテキストボックスにアスタリスク記号を入力します:* (C列で検索しようとしている文字)。アスタリスクは何によっても置き換えられないように、つまり削除されるように、置換後の文字列のテキストボックスを空のままにします。


検索オプションに特定の範囲と表示されていて、選択した列が範囲に反映されていることを確認してください。チェックボックスをチェックが付いていない状態にします。


すべて置換を選択します。Google スプレッドシートによって、100個の * というインスタンスを(空欄)に置き換えたというメッセージが表示されることにご注目ください。これはつまり、数回クリックするだけで50行にわたる100文字をうまく削除できたということです。


完了を選択します。これで、テーブルはきれいになり、準備ができました。次のレッスンでは可視化を行い、データから情報を得ます。

おめでとうございます!

VisualizingData_overview.jpg

「Google スプレッドシート:データのクリーニング」を終了されました。

引き続きデジタルジャーナリズムのスキルを磨き、Google News Initiative認証に向けて勉強していただくには、トレーニングセンターのWebサイトに移動して、別のレッスンを受けてください:


その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

newsinitiative.withgoogle.com/training/course/data-journalism


VisualizingData_overview.jpg
おめでとうございます!これで終了です Google スプレッドシート:データのクリーニング はい、取り組んでいます
あなたへのおすすめ
このレッスンに対する評価をお聞かせください。
お寄せいただいたフィードバックは、レッスンの継続的な改善に役立てさせていただきます。
移動して進行状況が失われてもよろしいですか?
このページから移動すると、現在のレッスンの進行状況がすべて失われます。続行して進行状況が失われてもよろしいですか?