レッスン 10/ 13

Google スプレッドシート：データのクリーニング

5 分で完了

Google スプレッドシート：データのクリーニング

分析と可視化の対象データを準備する。

Lesson をダウンロード

レッスンの概要

可視化に備えてデータをクリーニングする方法を学ぶ。

前のレッスン「Google スプレッドシート：インターネットからデータを収集する」では、importHTMLを使ってWebからテーブルをインポートする方法を学びました。このレッスンでは、データをクリーニングして分析と可視化の準備ができるようにする方法を学びます。

データを編集可能にする。
データを編集する。
検索と置換による一括編集。

その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

newsinitiative.withgoogle.com/training/course/data-journalism

データを編集可能にする。

「データのクリーニング」とは、作業に使用できるようにすることです。テーブルの整合性を保ち、矛盾が生じないようにして、パソコンが理解できるように構造化します。つまり、重複する行を削除し、目的外の文字を削除して、一種類のデータ（数値やテキストなど。ただし両方ではない）のみが列に格納されていることを確認します。まず、データを編集可能にする必要があります。

ステップ 1
この表はimportHTMLの結果を示しています。このフォームでは、データソース(Wikipediaのページ)に対する変更はここに自動的に反映され、少なくとも1時間に1回更新されます。ただし、セル内の値を編集して目的外の文字を削除することはできません。Google スプレッドシートで形式を選択して貼り付けによって、データの静的スナップショットを作成します。これにより、importHTMLによってテーブルを自動的に更新する機能が失われますが、編集することはできます。

ステップ 2
シートの左上の長方形を左クリックして、すべてのデータを選択します。すべてのセルが強調表示されたら、編集>コピーの順にクリックします。編集>形式を選択して貼り付け>値のみを貼り付けの順に選択します。これで、テーブルを編集できるようになりました。

ステップ 3
編集を簡単にするには、列の名前で行を固定します。灰色のバーの上にある1行目の直上の行にマウスカーソルを合わせます。カーソルが手袋の形に変わります。バーを1行目の末尾までドラッグして、バーをそこでドロップします。これで、一番上の行は固定されました。

データを編集する。

importHTMLは、Wikipediaのテーブルから残りの文字をインポートします。これらの文字は人間が使えても、パソコンは使うことができません。削除して、テーブルをきれいにしましょう！

ステップ 1
この練習でF列は必要がないため、列の上部にあるFの文字を右クリックして削除を選択します。

ステップ 2
A14行の番号13の横に文字「F」があり、セルB27の番号4の横に「TS3」があります。13と4の数字だけが残るようにこれらの文字を削除します。

ステップ 3
セルB40とB48の余分な文字を削除して、19と8だけを残します。D17に対しても同じ処理をして、先頭の「F8」を削除します。

検索と置換による一括編集。

CleaningData_Batch_editing_with_Find_and_replace_Step1_XhTKKzt.jpg

CleaningData_Batch_editing_with_Find_and_replace_Step2_LAd0fjb.jpg

CleaningData_Batch_editing_with_Find_and_replace_Step3_urk1xC8.jpg

CleaningData_Batch_editing_with_Find_and_replace_Step4_6P0YFOX.jpg

CleaningData_Batch_editing_with_Find_and_replace_Step5_OimppQj.jpg

ここではC列を見ます。検索と置換機能を使って、行ごとではなく先頭と末尾の * 文字を一括して削除しましょう。

ステップ 1
列の一番上にある文字Cを左クリックして、C列を選択します。編集>検索と置換の順に選択します。

ステップ 2
最初のテキストボックスにアスタリスク記号を入力します：* (C列で検索しようとしている文字)。アスタリスクは何によっても置き換えられないように、つまり削除されるように、置換後の文字列のテキストボックスを空のままにします。

ステップ 3
検索オプションに特定の範囲と表示されていて、選択した列が範囲に反映されていることを確認してください。チェックボックスをチェックが付いていない状態にします。

ステップ 4
すべて置換を選択します。Google スプレッドシートによって、100個の * というインスタンスを(空欄)に置き換えたというメッセージが表示されることにご注目ください。これはつまり、数回クリックするだけで50行にわたる100文字をうまく削除できたということです。

ステップ 5
完了を選択します。これで、テーブルはきれいになり、準備ができました。次のレッスンでは可視化を行い、データから情報を得ます。

おめでとうございます！

「Google スプレッドシート：データのクリーニング」を終了されました。

引き続きデジタルジャーナリズムのスキルを磨き、Google News Initiative認証に向けて勉強していただくには、トレーニングセンターのWebサイトに移動して、別のレッスンを受けてください：

その他のデータジャーナリズムのレッスンについては、次のURLをご覧ください。

newsinitiative.withgoogle.com/training/course/data-journalism

おめでとうございます！これで終了です Google スプレッドシート：データのクリーニングはい、取り組んでいます

あなたへのおすすめ

open_in_new

Google Earth Timelapse：変化を観察する

レッスン

過去35年間で地球がどのように変化してきたのかを観察します。

開始

アカウントから削除

アカウントに保存

None
open_in_new

Google Trends: See what’s trending across Google Search, Google News and YouTube.

レッスン

Find stories and terms people are paying attention to.

開始

アカウントから削除

アカウントに保存

None
open_in_new

検証:Google検索

レッスン

日付、関連性、言語ごとに検索結果をフィルタリングするには、高度な検索のショートカットをマスターしましょう。

開始

アカウントから削除

アカウントに保存

None

このレッスンに対する評価をお聞かせください。

お寄せいただいたフィードバックは、レッスンの継続的な改善に役立てさせていただきます。

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

TITLE

Google スプレッドシート：データのクリーニング

レッスンの概要

データを編集可能にする。

データを編集する。

検索と置換による一括編集。

おめでとうございます！

Google Earth Timelapse：変化を観察する

Google Trends: See what’s trending across Google Search, Google News and YouTube.

検証:Google検索

探しているリソース:

Google スプレッドシート：データのクリーニング

レッスンの概要

データを編集可能にする。

データを編集する。

検索と置換による一括編集。

おめでとうございます！

Google Earth Timelapse：変化を観察する

Google Trends: See what’s trending across Google Search, Google News and YouTube.

検証:Google検索