Como lidar com dados faltantes (NaN) em um Dataset (Python para machine learning - Aula 22)

  Рет қаралды 28,478

Didática Tech

Didática Tech

Күн бұрын

Пікірлер: 55
@geovanidias5825
@geovanidias5825 5 ай бұрын
Mais um ótimo vídeo. Parabéns! Outra forma de pegar o total de registros do dataframe seria: df.shape[0]. No caso a fórmula poderia ficar assim: faltantes_percentual = (faltantes/dados.shape[0])*100. Valeu!!!
2 жыл бұрын
Olá pessoal! Liberamos CERTIFICADO para este curso gratuito. Para solicitar o seu, basta conferir o curso no link abaixo: didatica.tech/curso-de-python-para-machine-learning-e-ciencia-de-dados-gratuito/
@paulamarangon
@paulamarangon 11 ай бұрын
Muito bom, fiz de tudo pra substituir dados nulos antes , ainda bem que encontrei seu vídeo, me salvou, Obrigada, vou acompanhar os outros videos, vai me ajudar muito!
@LearningWorldChatGPT
@LearningWorldChatGPT 4 жыл бұрын
Excelente aula professor !!! ... Obrigado por compartilhar seus conhecimentos conosco. São poucos os que são professores de verdade... continue assim e DEUS te abençoe sempre.
@fabioribeirodesouza7248
@fabioribeirodesouza7248 4 жыл бұрын
Parabéns! Estou acompanhando todas as aulas. Você é um ótimo professor. Explica muito bem. Excelente didática. Obrigado por compartilhar seu conhecimento com todos nós.
@MathematikO0
@MathematikO0 5 жыл бұрын
Salvou meu TCC! Obrigado pelos vídeos!
@alyssoncordeiro4800
@alyssoncordeiro4800 Жыл бұрын
ótima aula
@CheiroDeBacon
@CheiroDeBacon 5 жыл бұрын
Muito bom, era o que eu estava precisando. Estarei acompanhando esta playlist.
@Vlapstone
@Vlapstone 2 жыл бұрын
VÁRIAS AULAS COM ESSA TABELA QUE SÓ ENSINOU A TRAZER NO PC MANOOOO!!!! OMG! O curso é IRADO, SHOW, TOP, muito obrigado mesmo, de coração! Maaaassss.... faltou ai essa dica de como fazer em um MAC!!!!!!
@Vlapstone
@Vlapstone 2 жыл бұрын
Consegui!!!!! Fui em finders, lá em cima em GO, dai em Home, e coloquei o arquivo lá. daí ficou "/Users/nomedomeucomp/athlete_events.csv" Espero que ajude outros leigos como eu! :)
@leandro5056
@leandro5056 3 жыл бұрын
Cara, primeiramente, parabéns! Você tem uma ótima didática! Em segundo lugar, muito obrigado por esses vídeos!
@HiagoAD
@HiagoAD 4 жыл бұрын
Q aula excelente, parabéns pelo trabalho!
@frankwilliam8689
@frankwilliam8689 4 жыл бұрын
Parabéns, resolveu um problema que estava tendo com dataset, ótima aula
@cs-canalsolucoes8910
@cs-canalsolucoes8910 4 жыл бұрын
Muito boa explicação !! Valeu
@gabrielramadan236
@gabrielramadan236 4 жыл бұрын
Excelente vídeo! Muito didático
@petadoblegeografia6328
@petadoblegeografia6328 3 жыл бұрын
Muito grato!
@thiagosouza6791
@thiagosouza6791 3 жыл бұрын
Muito bom!
@topdronesmgtopdrones347
@topdronesmgtopdrones347 3 жыл бұрын
Primeiramente gostaria de parabeniza-lo pela qualidade do material produzido que tem me incentivado, aos 50 anos, a aprender programação (conhecimento 0 sobre o assunto) para posteriormente tentar desenvolver modelos destinados a criação d estratégias de investimento e gerenciamento de risco. Agora uma questão técnica: como fazer para substituir ausência d dados por dados gerados por um random entre a media e x desvios padrão? Ainda to mt no inicio do aprendizado e não tenho capacidade para esse tipo d elaboração
3 жыл бұрын
Você pode usar a função random.normal do Numpy: stackoverflow.com/questions/58996519/populate-pandas-dataframe-with-normal-distribution
@grlgustavo
@grlgustavo 3 жыл бұрын
Muito bom suas aulas, parabéns!!!! Como eu transformo uma coluna do dataframe que está como object em float?
@SARAHMUZEL88
@SARAHMUZEL88 3 жыл бұрын
Muito bom o vídeo. Eu gostaria de saber se há uma forma de fazermos o preenchimento dos NaN em relação a uma outra coluna, mas sem usar if, por conta do grande número de dados
@dwj6506
@dwj6506 Жыл бұрын
como faço para substituir os dados ausentes( NaN) de uma coluna do dataframe por valores já existentes nela, de forma aleatória porém obedecendo a frequência que eles aparecem?
@edholanda5897
@edholanda5897 4 жыл бұрын
Um a parte, vc poderia fazer um tutorial em como instalar o Tellurium no Anaconda
@fabiorodriguespinto8467
@fabiorodriguespinto8467 3 жыл бұрын
Muito bom o vídeo, mas e se eu quiser substituir, por exemplo a coluna peso, pela media ou mediana, apenas de homens e que sejam praticantes de um determinado esporte?
@Katoairsoft
@Katoairsoft 4 жыл бұрын
E para substituir todos os campos vazios para uma palavra em específico ? Seria um If com algum método ?
@jeftelopes5181
@jeftelopes5181 4 жыл бұрын
Se alguém teve algum erro com esse código: "faltantes_percentual = (dados.isnull().sum() / len(dados['ID']))*100" erro: Não foi possível localizar o número ordinal 242 na biblioteca de vínculo dinâmico C:\Users\seu_usuario\Anaconda3\Library\bin\mkl_intel_thread.dll. Solução: Basicamente , há dois arquivos adicionais que precisam ser excluídos: 'System32 \ libiomp5md.dll' e 'SysWOW64 \ libiomp5md.dll'. Após excluir esses dois em suas respectivas pastas, o numpy e outros pacotes são carregados corretamente. Recomendo fazer o backup dos dois arquivos excluído. Links para ajudar a entender melhor o erro: stackoverflow.com/questions/53026985/the-ordinal-242-could-not-be-located-in-the-dynamic-link-library-anaconda3-libra conda.io/projects/conda/en/latest/user-guide/troubleshooting.html#numpy-mkl-library-load-failed Pelo menos para mim Funcionou ;)
@angeo10
@angeo10 3 жыл бұрын
Porque o NaN ocorre? Tenho lagums planilhas em csv e xlsx mas quando abro elas no Pandas quase todos os campos ficam como NaN tem como evitar essa situação?
@rogg5131
@rogg5131 4 жыл бұрын
Boa tarde ! É possível gerar a media para uma coluna com valores ausentes quando os valore são uma string ? Ou a média é calculada apenas quandos os valores da coluna são numericos ?
4 жыл бұрын
Apenas quando são numéricos. Mas existem técnicas para substituir uma string ausente pela string mais abundante
@ademilsondamiao
@ademilsondamiao 5 жыл бұрын
Bom dia tem como somar valores duplicado e uma só linha ex pdt x 100,00 pdt x 200 Att, Ademilson
@carlosmagnobarreto6856
@carlosmagnobarreto6856 4 жыл бұрын
Boa tarde. Uma pergunta: Quando você usa o drop ou o fillna, os dados originais são também afetados? Ou essas alterações aparecem somente na view do Jupyter?
4 жыл бұрын
Se você usa o parâmetro inplace=True os dados são afetados
@athaydemoreirajaikin3736
@athaydemoreirajaikin3736 4 жыл бұрын
E se o valor de NaN estiver no índice da coluna, como faço para substituir??
@chestergeo
@chestergeo Жыл бұрын
É possível colocar o link para o dataset, por favor? Eu vim do video que usa esse dataset no curso da HotMart (que também não coloca o link), e aparentemente a expectativa é que eu assista todos os outros 21 videos para achar o link 😡
Жыл бұрын
Oi, pedimos desculpas, o dataset foi colocado no primeiro vídeo dessa série, na aula sobre pandas. Mas de fato faltou replicar para facilitar, o link é esse: www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results
@alineigansi
@alineigansi 4 жыл бұрын
Maravilha de vídeo!!! Mas me diz uma coisa, eu poderia simplesmente excluir os dados missing do dataset? Ou isso traria consequências graves pra minha análise?
4 жыл бұрын
Se os dados missing representarem menos de 5% do conjunto de dados, não haveria muitas consequências negativas. A decisão sobre o que fazer com os dados missing, quando excluir, etc. depende também da importância das variáveis em questão em relação à sua variável target. Abordamos bastante isso nos módulos I e II: didatica.tech/curso-de-machine-learning-online-com-python/
@sheillinyoliveira8900
@sheillinyoliveira8900 3 жыл бұрын
Quando fui utilizar a função "fillna" apareceu um erro: NameError: name 'fillna' is not defined Alguém sabe me dizer o que aconteceu? Não está definido?!
@jordana9368
@jordana9368 4 жыл бұрын
Alguém saberia me dizer a diferença entre Dataset e Dataframe?
@paulo_rogerio22
@paulo_rogerio22 3 жыл бұрын
data set é um conjunto de dados não consultados, e dataframe é conjunto de dados em movimento. exemplo: quando vc faz uma busca na net sobre algo, aquela busca/interação é um frame.
@daniloarthur3542
@daniloarthur3542 4 жыл бұрын
Como faço para alterar a formatação dos itens nas linhas para coluna especifico. No meu caso eu quero preencher com zero's a esquerda. Ex: 13245678912 Out: 00012345678912
@hotbull9666
@hotbull9666 5 жыл бұрын
No caso, como faço pra adicionar um NaN, por exemplo, eu tenho um valor em uma posição, mas analisei e descobri que aquele valor não vai me servir, mas não quero excluir a linha toda, apenas transformar esse valor em NaN, como faço?
5 жыл бұрын
Filtre esse valor e substitua-o por NaN com o numpy. Por exemplo: tabela[filtro]=numpy.nan
@robertowagnerdacosta2508
@robertowagnerdacosta2508 3 жыл бұрын
Dados faltantes nao podem simplesmente serem ignorados? E usarmos uma tabela sem eles?
3 жыл бұрын
Se forem poucos, sim. Se forem muitos, o modelo pode acabar ficando com poucas amostras. Além disso, se apenas uma feature tem um valor faltando entre várias features, vale a pena excluir a amostra inteira? Essa é a questão
@robertowagnerdacosta2508
@robertowagnerdacosta2508 3 жыл бұрын
@ Entendi. Vlw
@mateusguedes9142
@mateusguedes9142 5 жыл бұрын
eu to querendo remover 0 as linhas, como eu faço isso.
5 жыл бұрын
Eu mostro isso no vídeo, com o comando dropna
@francisko369
@francisko369 4 жыл бұрын
Eu gostei, embora, claro eu sei que é uma forma explicativa e um pouco groseira, pois se pensar bem, por exemplo, substituir dados faltantes de pesos e alturas, pela sua média, terminaria misturando os pesos de homens e mulheres, e por lógicas, o certo substituir pela média de seu respectivo sexo, ou seja, como é possível realizar essa analises, considerando o sexo?
4 жыл бұрын
Isso mesmo, você pode (e deve) refinar as substituições o melhor que puder
@SARAHMUZEL88
@SARAHMUZEL88 3 жыл бұрын
@ mas como posso fazer isso?
@Vlapstone
@Vlapstone 2 жыл бұрын
Aguém mais está tendo erro? Já confirmei os comandos inúmeras vezes, já fiz desde o início e ainda com erro.
@Vlapstone
@Vlapstone 2 жыл бұрын
ACHEEEEI... KKKKK SOU MUITO MANÉ... AO INVÉS DE MEDAL COLOQUEI MEDALS! DDDDUUUUUURRRRRRR ISSO PORQUE FIZ E REFIZ 10 VEZES E NAS 10 VEZES COMETI O MESMO ERRO!!!! FOOOOOOOOGO!
@gabrielsantos-mo2nu
@gabrielsantos-mo2nu Жыл бұрын
o que era grátis ficou pago
@gabrielsantos-mo2nu
@gabrielsantos-mo2nu Жыл бұрын
NADA mais irritante do que o cara deixar de dizer informação porque vai está no curso
Seu primeiro código de Machine Learning com Python!
28:57
Didática Tech
Рет қаралды 107 М.
Introdução ao Pandas (curso Python para Machine Learning - Aula 12)
16:19
Handling Missing Values in Pandas Dataframe | GeeksforGeeks
22:17
GeeksforGeeks
Рет қаралды 136 М.
O que é NaN ou Null Dentro do Python e Como Tratar?
27:57
Hashtag Programação
Рет қаралды 4,2 М.
Impute missing values using KNNImputer or IterativeImputer
5:50
Data School
Рет қаралды 44 М.
Limpeza, Transformação e Discretização de dados | Python para data science
33:02
É o fim do Power BI? Criando Dashboard com Python em 15 minutos
17:46
Asimov Academy
Рет қаралды 357 М.
Séries Temporais com python/pandas/statsmodels - Parte 01
18:43
Exploratory Data Analysis with Pandas Python
40:22
Rob Mulla
Рет қаралды 508 М.