Ir para o conteúdo principal
Não sabe por onde começar? Faça um pequeno teste para obter recomendações personalizadas.
5 minutes para completar

Google Sheets: Extração de dados da internet

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg
Construa seu próprio conjunto de dados usando o Google Sheets.
DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview_UEMWXbb.jpg
Comece Agora

Visão global da aula

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

Aprenda a construir seu próprio conjunto de dados usando o Google Sheets.

CÓPIA: Há uma enorme quantidade de dados disponíveis na internet que você pode usar para pesquisar e visualizar notícias. O primeiro passo é encontrar os dados e colocá-los em um formato que você possa utilizar.



  1. Começar uma nova planilha.
  2. Encontrar dados confiáveis.
  3. Importar os dados para o Google Sheets.
  4. Solucionar problemas e mensagens de erro. 
  5. Exibir os seus dados.



Para mais aulas sobre Jornalismo de Dados, visite:

https://newsinitiative.withgoogle.com/training/course/data-journalism

DataJournalism_GoogleSheetsScrapingDatafromtheInternet_lessonoverview.jpg

Começar uma nova planilha.


Primeiramente, você precisa criar uma planilha em branco. Acesse sheets.google.com. Clique no ícone + abaixo de Abrir uma nova planilha.


Para dar um nome a sua planilha, clique no texto no canto superior esquerdo. Vamos chamar esta planilha de "Filmes com Maiores Arrecadações."

Encontrar dados confiáveis.

Você pode escrever artigos baseados em dados sobre quase qualquer tópico ao utilizar dados de fontes do governo, de publicações científicas, da Wikipedia, do Google Public Data Explorer e de outras fontes. Nesta aula, vamos treinar com dados sobre filmes.



Acesse google.com e busque filmes de maior arrecadação. Um dos primeiros links deve ser uma entrada da Wikipedia com várias tabelas. Uma lista, chamada “os 50 filmes de maior arrecadação de todos os tempos”, cita múltiplas referências. Então, vamos usá-la. Sempre confira o material para ter certeza que você está extraindo dados de fontes confiáveis. 


Para importar esta tabela para o Google Sheets, copie o endereço da página da Wikipedia selecionando a URL, clique do lado direito do mouse e selecione copiar. 

Importar os dados para o Google Sheets.

Nós vamos utilizar importHTML para importar a tabela da Wikipedia para nossa planilha. Esta fórmula poderosa está inserida no Google Sheets para ajudá-lo a importar tabelas e listas de páginas da internet. Para saber mais sobre como funciona o importHTML e ver exemplos, leia as páginas de documentação do Google Sheets.



A ferramenta importHTML necessita de três parâmetros para funcionar: 1) uma URL2) o tipo de dado que estamos coletando, uma tabela ou uma lista3) o número que representa a posição da tabela ou lista no código HTML. Neste exemplo, a primeira entrada de uma tabela seria numerada como 1, uma vez que a tabela que queremos é a primeira que aparece em HTML. Você pode usar de tentativa e erro para encontrar qual é a posição de uma tabela (1, 2, 3, etc.) ou clicar com o lado direito do mouse na página da internet, selecionar Inspecionar > Encontrar para localizar a tabela no código.


Acesse a planilha em branco que você criou e vá para a célula A1. Digite:=importHTML("https://en.wikipedia.org/wiki/List_of_highest-grossing_films", "table", 1)


Veja que a URL e o tipo de elemento (no nosso caso, uma tabela) ficam entre aspas — isto tornará os parâmetros verdes. O último parâmetro é um número sem aspas e aparecerá na cor azul.

Solucionar problemas e mensagens de erro.

ScrapingData_Troubleshooting_and_error_messages.jpg

Se aparecer a mensagem ERRO! , certifique-se que utilizou aspas duplas conforme mostrado no exemplo. 



Se aparecer o erro VALOR!, certifique-se que você não utilizou parênteses ou aspas extras na célula.

ScrapingData_Troubleshooting_and_error_messages.jpg

Exibir os seus dados.

ScrapingData_Displaying_your_data_mcss7kz.jpg

Quando sua fórmula ImportHTML estiver correta, pressione entrar e dê alguns segundos para o Google Sheets. A tabela deverá ser carregada com todas as linhas e colunas formatadas. 



Veja que existem alguns elementos que precisamos remover para conseguir visualizar estes dados. Vamos aprender isto na próxima aula, “Google Sheets: Limpeza de dados.”

ScrapingData_Displaying_your_data_mcss7kz.jpg

Parabéns!

CleaningData_Overview_9zSutWO.jpg

Você completou “Google Sheets: Extração de dados da internet.”



Para continuar desenvolvendo suas habilidades de jornalismo digital e para trabalhar para conseguir a certificação da Google News Initiative, acesse o nosso site do Centro de Treinamento e faça outra aula:



Para mais aulas sobre Jornalismo de Dados, visite:

newsinitiative.withgoogle.com/training/course/data-journalism


CleaningData_Overview_9zSutWO.jpg
Parabéns! Você concluiu Google Sheets: Extração de dados da internet in progress
Recommended for you
  • GO801_GNI_2-StepVerification_Title-Card.jpg

    Verificação em duas etapas: Maior segurança para sua conta do Google.

    lesson 15 minutes Beginner
    Adicione uma camada extra de proteção além da sua senha.
  • Introduction_to_Google_Earth_Engine_Lesson_Overview_jLofKXp.png

    Introdução ao Google Earth Engine

    lesson 5 minutes Beginner
    Use uma biblioteca multi-petabyte de imagens e dados de satélite para detectar mudanças, tendências dos mapas e quantificar as diferenças da superfície da Terra
  • CleaningData_Overview_1pa7Mmc.jpg

    Google Sheets: Limpeza de dados

    lesson 5 minutes Beginner
    Prepare seus dados para análise e visualização.