Google 스프레드시트: 인터넷에서 데이터 스크랩

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg

Google 스프레드시트로 나만의 데이터 세트를 만듭니다.

Google 스프레드시트를 사용하여 나만의 데이터 세트를 만드는 방법을 살펴보겠습니다.

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

인터넷에는 스토리를 연구하고 이를 시각화하는 데 사용할 수 있을 정도로 사용 가능한 방대한 양의 데이터가 있습니다. 데이터를 찾아 작업 가능한 형식으로 만드는 것이 첫 단계입니다.

새 스프레드시트 시작.
신뢰할 수 있는 데이터 찾기.
Google 스프레드시트로 데이터 가져오기.
문제 해결 및 오류 메시지.
데이터 표시.

더 많은 데이터 저널리즘 단원 사이트는 다음과 같습니다.

https://newsinitiative.withgoogle.com/training/course/data-journalism

새 스프레드시트 시작.

Starting a new spreadsheet.

단계 1
먼저, 빈 스프레드시트를 작성해야 합니다. sheets.google.com으로 이동합니다. 새 스프레드시트 시작하기에서 더하기 + 아이콘을 클릭합니다.

단계 2
스프레드시트의 이름을 지정하려면 왼쪽 맨 위의 텍스트를 클릭합니다. 이 파일 이름을 "최고의 흥행 영화"(Highest Grossing Movies)라고 정하겠습니다.

신뢰할 수 있는 데이터 찾기.

정부 사이트, 과학 출판물, Wikipedia, Google Public Data Explorer 등의 데이터를 소싱하면 거의 모든 주제에 대해 데이터 스토리를 말할 수 있습니다. 본 단원에서는 영화에 대한 데이터를 연습하겠습니다.

단계 1
google.com으로 이동하여 최고의 흥행 영화를 검색합니다. 첫 번째 링크 중 하나는 여러 개의 표로 된 Wikipedia 항목입니다. 모든 시간대의 최고의 흥행 영화 50위라는 하나의 목록에는 여러 건의 추천글이 있으니 이것을 사용할 것입니다. 항상 신뢰할 수 있는 출처에서 데이터를 가져와야 합니다.

단계 2
이 표를 Google 스프레드시트로 가져오려면 Wikipedia 페이지의 주소 URL을 강조 표시하여 마우스 오른쪽 버튼으로 클릭한 후 복사를 선택하여 복사합니다.

Google 스프레드시트로 데이터 가져오기.

ScrapingData_Importing_data_to_Google_Sheets_step1_mM4p6WL.jpg

ScrapingData_Importing_data_to_Google_Sheets_step2_IygT0Zy.jpg

ScrapingData_Importing_data_to_Google_Sheets_step3_gznqq5C.jpg

이 때 Wikipedia에서 스프레드시트로 표를 가져오기 위해 importHTML을 사용하겠습니다. 이 강력한 수식은 웹 페이지에서 표나 목록을 가져올 수 있도록 Google 스프레드시트에 내장되었습니다. importHTML의 작동 방식과 예제를 보려면 Google 스프레드시트 설명서 페이지를 읽어보십시오.

단계 1
importHTML 도구에는 3개의 매개 변수가 필요합니다. 1) URL2) 당사가 수집하는 표 또는 목록 중 모든 데이터의 유형3) HTML 코드에서 표 또는 목록의 위치를 나타내는 숫자 이 예제에서 표의 첫 번째 인스턴스는 HTML로 표시되는 첫 번째 표이므로 기대했던 것처럼 1번으로 지정됩니다. 시행 착오를 통해 표의 위치(1, 2, 3 등)를 찾거나 웹 페이지를 마우스 오른쪽 버튼으로 클릭하고, 검사 > 찾기를 선택하여 코드에서 표를 찾을 수 있습니다.

단계 2
작성한 빈 시트로 이동하여 A1셀로 이동합니다. 유형:=importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "table", 1)

단계 3
URL과 요소 유형(이 경우 표)은 따옴표 사이에 오는데, 이럴 때 매개 변수가 녹색으로 표시됩니다. 마지막 매개 변수는 따옴표 안에 없는 숫자이고 파란색으로 표시됩니다.