기본 콘텐츠로 건너뛰기
대시보드로 이동
어떻게 시작해야 할지 막막하세요? 짧은 퀴즈를 풀면 맞춤 추천이 제공됩니다.
강의 18개 중 12번째
Google 스프레드시트: 데이터 정제
Data Journalism
Permissions: Source Google Data.
데이터 세트 검색 요약 안내서
Google Trends: 데이터 이해하기.
Google Data GIF Maker
Google 스프레드시트: 데이터 시각화
데이터 시각화: Flourish 템플릿.
Data Source: Global Forest Watch
데이터 시각화: Tilegrams 소개.
데이터 시각화: 고급 Tilegrams.
Google Trends: 검색 결과 개선하기.
Data Source: Election Databot.
check_box_outline_blank Data Journalism: Take the Quiz
코스
0% 완료
5분 완료를 위해

Google 스프레드시트: 데이터 정제

CleaningData_Overview_1pa7Mmc.jpg
분석 및 시각화를 위한 데이터 준비.
CleaningData_Overview_1pa7Mmc.jpg

단원 개요

CleaningData_Overview.jpg

시각화에 대비한 데이터 정리 방법 익히기.


이전 단원인 Google 스프레드시트: 인터넷에서 데이터 스크랩하기에서는 importHTML을 사용하여 웹에서 표를 가져오는 방법을 배웠습니다. 이 단원에서는 분석 및 시각화를 위한 데이터 정리 방법에 대해 살펴보겠습니다.

  1. 데이터 가공.
  2. 데이터 편집. 
  3. 찾기 및 바꾸기로 일괄 편집.

더 많은 데이터 저널리즘 단원 사이트는 다음과 같습니다.

newsinitiative.withgoogle.com/training/course/data-journalism

CleaningData_Overview.jpg

데이터 가공.

"데이터 정제"란 표에 어떤 결함이나 불일치가 없게 하고, 컴퓨터가 이해할 수 있는 방식으로 정형화되게 하여 사용하기에 유용하도록 만드는 것을 의미합니다. 즉, 중복된 항목을 없애고, 원치 않는 문자를 삭제하고, 열에 한 종류의 데이터(예: 숫자 또는 텍스트, 둘 다는 아님)만 포함되게 하는 것입니다. 첫째, 데이터를 편집 가능하도록 가공합니다.



이 표는 importHTML의 결과를 나타낸 것입니다. 이 양식에서 데이터 소스(Wikipedia 페이지)에 대한 모든 변경은 자동으로 여기에 반영되고 시간당 1회 이상 업데이트됩니다. 단, 셀의 값을 편집하여 원치 않는 문자를 제거할 수는 없습니다. 여기서는 데이터의 정적 스냅샷을 만드는 Google 스프레드시트의 선택하여 붙여넣기를 사용합니다. 이것으로 importHTML을 통해 테이블을 자동으로 업데이트하는 기능이 없어지지만 편집할 수는 있습니다. 


시트의 왼쪽 맨 위 사각형을 마우스 왼쪽 버튼으로 클릭하여 모든 데이터를 선택합니다. 모든 셀이 강조 표시되면 편집 > 복사를 클릭합니다. 편집 > 선택하여 붙여넣기 > 값만 붙여넣기를 선택합니다.  이제 표를 편집할 수 있습니다. 


편집을 쉽게 하기 위해, 열 이름으로 행을 고정합니다. 마우스 커서를 회색 막대 위에 있는 1행 바로 위에 놓습니다. 커서가 장갑으로 변하는 모습이 보입니다. 막대를 1행의 맨 아래로 끌어서 그대로 둡니다. 이제 맨 위의 행이 고정되었습니다.

데이터 편집.

importHTML은 Wikipedia 표에서 사람에게는 유용하지만 컴퓨터에는 사용할 수 없는 남은 문자를 가져옵니다. 해당 항목을 삭제하고 표를 정리하십시오!



이 연습에서는 F열이 필요 없으므로 열 맨 위에 있는 F를 마우스 오른쪽 버튼으로 클릭하고 삭제를 선택합니다.


A14행의 13열 옆에 문자 "F"가 있고 셀 B27의 4열 옆에 "TS3"이 있습니다. 숫자 13과 숫자 4만 남아 있도록 이 문자를 삭제합니다.


셀 B40 및 B48에서 여분의 문자를 제거하여 19 및 8만 남게 합니다. 앞의 "F8"을 삭제하려면 D17에서와 똑 같이 합니다.

찾기 및 바꾸기로 일괄 편집.

이제 C열을 살펴보겠습니다. 찾기 및 바꾸기 기능을 사용하여 행 기준이 아닌 일괄 처리에서 맨 앞 및 맨 뒤의 별표* 문자를 삭제하겠습니다.



열 맨 위에 있는 문자 C를 왼쪽 클릭하여 C열을 선택합니다. 편집 > 찾기 및 바꾸기를 선택합니다.


첫 번째 텍스트 상자에 별표 기호 *(C열에서 찾으려는 문자임)를 입력합니다. 별표가 어떤 것과도 바뀌지 않도록 바꾸기 텍스트 상자를 비워 별표가 삭제되게 합니다. 


검색 옵션에 특정 범위가 표시되는지 확인하고 범위에 방금 선택한 열이 반영됩니다. 체크박스는 선택하지 말고 그대로 두십시오. 


모두 바꾸기를 선택합니다.Google 스프레드시트에서 별표*에 대한 100개의 인스턴스가 바뀌었다(없음)고 알립니다. 즉, 몇 번의 클릭만으로 50개의 행에서 100개의 문자를 성공적으로 삭제한 것입니다! 


완료를 선택합니다. 이 표는 이제 깨끗이 정리되었고 작업할 준비가 된 것입니다. 다음 단원에서는 시각화를 생성하고 데이터에서 통찰을 가져오는 법을 살펴보겠습니다. 

축하합니다!

VisualizingData_overview.jpg

이제 "Google 스프레드시트: 데이터 정리"에서 살펴보겠습니다.



디지털 저널리즘 기술을 계속 발전시키고 Google 뉴스 이니셔티브 인증을 받으려면 교육 센터 웹 사이트로 접속하여 다음 단원을 들으십시오.



더 많은 데이터 저널리즘 단원 사이트는 다음과 같습니다.

newsinitiative.withgoogle.com/training/course/data-journalism


VisualizingData_overview.jpg
축하합니다. 수강을 완료하셨습니다 Google 스프레드시트: 데이터 정제 in progress
Recommended for you
이 강의가 얼마나 만족스러우셨나요?
의견을 보내주시면 Google 뉴스 이니셔티브 강의를 지속적으로 개선하는 데 도움이 됩니다.
페이지를 나가고 진행 상황 삭제하기
이 페이지를 나가면 현재 듣는 강의의 진행 상황이 모두 삭제됩니다. 그대로 나가고 진행 상황을 삭제하시겠습니까?