Raspagem de Dados com Pandas

  Рет қаралды 2,995

Hashtag Programação

Hashtag Programação

Күн бұрын

Quer saber mais sobre o nosso Curso Completo de Ciência de Dados? Clique no link abaixo para garantir sua vaga na próxima turma:
blp.hashtagtreinamentos.com/c...
PARA BAIXAR O MINICURSO GRATUITO DE ANÁLISE DE DADOS:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
► Arquivos Utilizados no Vídeo:
pages.hashtagtreinamentos.com...
-----------------------------------------------------------------------
Caso prefira o vídeo em formato de texto:
www.hashtagtreinamentos.com/r...
-----------------------------------------------------------------------
Playlist Pandas Python:
• 7 Maneiras de Criar Da...
-----------------------------------------------------------------------
PARA CONTRATAR A HASHTAG PARA SUA EMPRESA:
www.hashtagtreinamentos.com/t...
-----------------------------------------------------------------------
Fala Impressionadores! Hoje eu vou falar sobre um assunto muito interessante que é a raspagem de dados com pandas ou webscraping, como você já deve ter ouvido por aí.
A raspagem de dados, nada mais é do que uma maneira de obter dados da internet (usando o read_html do pandas), então você pode obter tabelas por exemplo e fazer o tratamento de dados no pandas normalmente.
Só que o que poucas pessoas falam é quando podemos fazer a raspagem de dados! Sim, não é porque os dados estão livres na internet que podemos fazer esse processo de raspagem de dados.
Por isso eu vou te explicar sobre o robots.txt que é um documento que mostra quais as páginas de um site você está apto a fazer essa raspagem de dados.
Alguns sites proíbem essa raspagem em diversas das suas páginas, o que pode gerar um bloqueio para o usuário que fizer isso.
Então é importante que você saiba se de fato pode obter aqueles dados. Outro ponto importante é verificar se o site já não oferece as informações que você precisa para download ou até mesmo se não oferece uma API para obter essas informações!
Com isso fica tudo mais fácil e você evita qualquer tipo de bloquei. Lembrando que a raspagem de dados seria o último recurso, então vamos verificar se existem os arquivos para download, depois se temos API e só aí partimos para a raspagem, caso esteja disponível!
-----------------------------------------------------------------------
Hashtag Programação
► Inscreva-se em nosso canal: bit.ly/3c0LJQi
► Ative as notificações (clica no sininho)!
► Curta o nosso vídeo!
-----------------------------------------------------------------------
Redes Sociais
► Blog: bit.ly/2MRUZs0
► KZbin: bit.ly/3c0LJQi
► Instagram: bit.ly/3o6dw42
► Facebook: bit.ly/3qGtaF2
Aqui nos vídeos do canal da Hashtag Programação ensinamos diversas dicas de Ciência de Dados para que você consiga se desenvolver e até mesmo mudar de área mesmo sem nenhuma experiência!
-----------------------------------------------------------------------
Conteúdo da Aula
00:00 Introdução
01:15 O que vamos simular nessa aula?
03:00 Importação do Pandas + Link do site
03:14 O que a função read_html retorna?
03:44 Obtendo as tabelas do site
05:12 Verificando o comprimento da lista de tabelas
05:37 Obtendo o primeiro item de uma coleção de itens
06:39 Tratamento de dados no Pandas
08:30 Trabalhando com os dados
10:30 Entendo o funcionamento do read_html (documentação)
11:56 O que é HTML
13:55 Fonte da Página de Exibição (busca por tabela)
17:25 Quando podemos fazer a raspagem de dados?
18:57 Protocolo de exclusão de robôs (robots.txt)
23:11 Como acessar o robots.txt
28:04 Exemplos do robots.txt de alguns sites
29:23 Site da Globo (robots.txt)
32:02 Site da Record (robots.txt)
33:40 Site do Censo 2022 do IBGE (robots.txt)
36:33 Site do GitHub (robots.txt)
39:13 Conclusão
#cienciadedados #cienciadados #hashtagprogramacao

Пікірлер: 6
@moderacaohashtag
@moderacaohashtag 27 күн бұрын
Fala galera! Gostou do vídeo? Deixa a sua curtida e se inscreve no canal! ► Para baixar o Minicurso Básico de Ciência de Dados, acesse: pages.hashtagtreinamentos.com/inscricao-curso-basico-cienciadados?origemurl=hashtag_yt_org_minicd_bIEMsaKkqbk ► Para baixar os arquivos da aula, acesse: pages.hashtagtreinamentos.com/arquivo-cienciadados-1xiJciRXkxt_WoB0KWH0O2owkZuOv6OmF?origemurl=hashtag_yt_org_planilhacd_bIEMsaKkqbk ► Para instalar o Jupyter, acesse: kzbin.info/www/bejne/lZauYa1rhsejgaM ► Blog: bit.ly/2MRUZs0 ► KZbin: bit.ly/3c0LJQi ► Instagram: bit.ly/3o6dw42 ► Facebook: bit.ly/3qGtaF2
@HugoSilva666
@HugoSilva666 Ай бұрын
Cara, muito bom! a biblioteca pandas é incrível, poderia fazer um mini curso de pandas
@MrDionmar
@MrDionmar Ай бұрын
Muiito bom 👍 Parabéns
@thiagocc84
@thiagocc84 Ай бұрын
Mais um ótimo vídeo sobre Pandas =DD pô faz uns vídeos falando tudo sobre datetime que seria ótimo.
@ddiogomainardi
@ddiogomainardi Ай бұрын
Sou aluno do curso Ciencia de dados Impressionador. O curso é muito e com uma didática incrivel, vale cada centavo.
@thiagopbento
@thiagopbento Ай бұрын
Se tiver que fazer raspagem em um ambiente logado, alguém sabe como faz?
Melhores Formatos para Salvar seus Dados csv x parquet x feather
42:00
Hashtag Programação
Рет қаралды 1,7 М.
Introdução ao BeautifulSoup - Raspagem de Dados com Python
32:04
Hashtag Programação
Рет қаралды 44 М.
Я нашел кто меня пранкует!
00:51
Аришнев
Рет қаралды 5 МЛН
路飞被小孩吓到了#海贼王#路飞
00:41
路飞与唐舞桐
Рет қаралды 77 МЛН
Mom's Unique Approach to Teaching Kids Hygiene #shorts
00:16
Fabiosa Stories
Рет қаралды 15 МЛН
QUAL a MELHOR LINGUAGEM para PROGRAMAÇÃO?
6:44
Cortes do Ciência Sem Fim [OFICIAL]
Рет қаралды 487 М.
Como fazer Análise de Dados no ChatGPT
15:20
Hashtag Treinamentos
Рет қаралды 10 М.
Criando uma aplicação de API com FastAPI em Python
12:20
Muri Tech
Рет қаралды 16 М.
How I'd Learn AI (If I Had to Start Over)
15:04
Thu Vu data analytics
Рет қаралды 751 М.
É o fim do Power BI? Criando Dashboard com Python em 15 minutos
17:46
Asimov Academy
Рет қаралды 309 М.
Pare de Perder Tempo com as Linguagens de Programação ERRADAS
15:38
Three Best AI tools for Data Analysis
15:39
Gurru Tech Solutions
Рет қаралды 21 М.
How I'd Learn AI in 2024 (if I could start over)
17:55
Dave Ebbelaar
Рет қаралды 876 М.
ADVANCED Python AI Agent Tutorial - Using RAG
40:59
Tech With Tim
Рет қаралды 131 М.
Я нашел кто меня пранкует!
00:51
Аришнев
Рет қаралды 5 МЛН