Рет қаралды 8,518
Frequentemente iniciantes na área de dados buscam por conjuntos de dados interessantes para que possam praticar as habilidades do processo de mineração de dados. Os mais experientes podem já estar na etapa de criar seus próprios projetos e para isso podem eventualmente precisar de dados.
Dependendo da área de seu interesse pode ser mais ou menos difícil encontrar dados estruturados a respeito, em alguns casos, inclusive, pode ser quase impossível e será necessário recorrer a um método de obtenção de dados por meio de uma API ou, em último caso, uma raspagem de dados (lembre-se de verificar se a extração é autorizada!)
É inegável, no entanto, que encontrar os dados já estruturados exatamente como precisamos é um adianto para um projeto. Quando estruturados, os dados geralmente são disponibilizados em arquivos .csv ou .xlsx.
A forma mais comum de encontrarmos datasets (conjuntos de dados) é em sites de dados abertos. Muitas instituições governamentais ao redor do mundo mantém sites de dados públicos para o livre acesso dos cidadãos.
Artigo: / 7-datasets-gratuitos-p...
Seleção de datasets públicos e gratuitos:
1. Incremento no desmatamento da Amazônia Legal: Áreas desmatadas à partir de 2008 discretizadas por ano. O mapeamento utiliza imagens do satélite Landsat ou similares, para registrar e quantificar as áreas desmatadas maiores que 6,25 hectares. O PRODES considera como desmatamento a supressão da vegetação nativa, independentemente da futura utilização destas áreas. terrabrasilis.dpi.inpe.br/geon...
2. Microdados Censo Escolar 2020: www.gov.br/inep/pt-br/acesso-...
3. Dados Públicos CNPJ: Dados sobre situação e quadro societário das empresas brasileiras. www.gov.br/receitafederal/pt-...
4. Stack Overflow Annual Developer Survey: Pesquisa sobre aspectos da experiência do desenvolvedor, desde a satisfação com a carreira e a procura de emprego até a educação e opiniões sobre software de código aberto. insights.stackoverflow.com/su...
5.Amazon Reviews: Um vasto conjunto de dados da Amazon, contendo mais de 45 milhões de reviews da Amazon. snap.stanford.edu/data/web-Am...
6. Fake News Detection Dataset: É um arquivo CSV que possui 7.796 linhas com quatro colunas. Existem quatro colunas: notícias, título, texto da notícia, resultado. www.kaggle.com/c/fake-news/data
7. MIMIC-IV: banco de dados relacional contendo estadias reais em hospitais de pacientes internados em um centro médico acadêmico terciário em Boston, MA, EUA. mimic.mit.edu/iv/
Assista também no canal Programação Dinâmica:
✔️O que REALMENTE faz um CIENTISTA DE DADOS?: • O que REALMENTE faz um...
✔️Como criar um PLANO DE ESTUDOS para se tornar um CIENTISTA DE DADOS?: • Como criar um PLANO DE...
✔️CRESCIMENTO das vagas de CIENTISTA DE DADOS é modinha?: • CRESCIMENTO das vagas ...
✔️O que VOCÊ precisa saber para TRABALHAR COM DADOS + Cientista de Dados vs. Engenheiro de Dados: • O que VOCÊ precisa sab...
✔️Etapas da ANÁLISE de DADOS na visão de uma CIENTISTA de DADOS: • Etapas da ANÁLISE de D...
✔️O que um CIENTISTA DE DADOS JUNIOR precisa saber? Cientista de Dados Responde: • O que um CIENTISTA DE ...
✔️5 projetos para um portfólio de CIENTISTA DE DADOS Iniciante: • 5 projetos para um por...
📚 Livros recomendados de Data Science: amzn.to/2XZyxUr
📚 Livros de Algoritmos e Estruturas de Dados: amzn.to/3d5wK4m
SetUp - Equipamentos: amzn.to/37Cg3N2
Shorts do Programação Dinâmica: / @alforriah
🟣 Canal na Twitch para lives: / pgdinamica
🟦 Canal do Telegram para receber os vídeos: t.me/joinchat/AAAAAFaoNgZTMRv...
✉️ E-mails:
- Propostas comerciais: pgdinamica@brunch.ag
- Demais assuntos: contato@programacaodinamica.com.br
👩🏾💻👨🏾💻 Confira mais conteúdo em nosso blog: blog.programacaodinamica.com.br
🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: bit.ly/pgsparkle (baixe o app e entre na comunidade)
📸 Nos siga no Instagram: / pgdinamica
📸 @kizzy_terra @hallpaz
🐦 Nos siga no Twitter: / pgdinamica
🐦 @kizzy_terra @hallpaz
* Curta a Programação Dinâmica no facebook: pgdinamica
* Nosso repositório no Github: github.com/programacaodinamica
* Confira o nosso Medium: medium.com/programacaodinamica
* Confira os artigos no Python Café: pythoncafe.com.br
🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no KZbin, considere nos apoiar se tornando membro do canal: kzbin.info...