Teste de Shapiro-Wilk - Tutorial Excel

Рет қаралды 18,847

Күн бұрын

Пікірлер: 44

@YvesAustin 5 жыл бұрын

Obrigado Anderson, thank you for posting!! SW tests in Excel are rare on KZbin!! And thank you for the the critical W values!!!

@andersoncanteli 5 жыл бұрын

Thanks, I'm glad you like it :)

@andersoncanteli 4 жыл бұрын

@@queen_penny Thank you!! I'm really glad you like it, and I hope that it helped you! But I'm sorry for the problem of the lack of translation in the subtitles! I have plans to add an English translation, or even record a new video all in English, including the formulas, but I just don't have time at the moment!!! Also, KZbin sent me a notification with a question from you, but I can't find it! I only have the notification! Really sorry about that !! You could ask again, if you want :)

@queen_penny 4 жыл бұрын

It is true. Very rare in English and in Rissuan. I don't know Portugues, so I was using autotranslation of the subtitles and using two pages to translate functions from Portugues to English and from English to Russian, so I could use them on my computer. But your video was very detailed and accurate so thank you thank you!!

@queen_penny 4 жыл бұрын

@@andersoncanteli Autotranslation worked just fine, but if you'd just put names of Excel formulas (or functions) in English, that would be great! I was planning to aks a question but then decided it was stupid, but I have another one! Sorry for inconvinince, I am in a brainstorm!)) In the end we got W-value in L2? But in some tables where I found numbers from BS, BT, BU - these are called p-value. So is it the same in this case?

@andersoncanteli 4 жыл бұрын

@@queen_penny Thank you very much for the feedback! I'll try to do that! At cell L2 is the Shapiro-Wilk statistic. At cels BS, BT and BU, you found the tabulated value (or critical value). But these are NOT the p-value. The p-value for this data is 0,416 which I estimated with Python-ScyPy (check it here kzbin.info/www/bejne/mWmYZGeVhMuEhrM, but is in Portuguese). The p-value does not depend on the level of significance, it depends on on the degree of freedom and the value of the statistic of the test. Unfortunately, I don't have the formula for the area under the curve for the Shapiro-Wilk test using Excel

@jfabsf 4 жыл бұрын

Excelente, professor Anderson Canteli! Muito obrigado pela partilha!!!

@andersoncanteli 4 жыл бұрын

Fico feliz que tenha gostado!

@isadoratravnik405 Жыл бұрын

MARAVILHOSO VOCÊ! Obrigada!

@leobertooliveira8934 3 жыл бұрын

Professor, muuuito obrigado pela aula e pela planilha! Salvou aqui!!

@andersoncanteli 3 жыл бұрын

Opa, valeww

@laysnunes1802 Жыл бұрын

Muito obrigada Anderson

@EuSouaManuela 3 жыл бұрын

Obrigado, me ajudou muito no meu trabalho.

@meemee_l 3 жыл бұрын

E quando é impar? no 2:08 ele parte igual, mas minha amostra é impar. devo deixar a mais na 1 ou na 2 coluna?

@andersoncanteli 3 жыл бұрын

Olá @Ludimilla Azevedo! As colunas D e E devem ter o mesmo tamanho! Para dados ímpares, você ignora o ponto central no calculo de b. Por exemplo, caso tenha 9 pontos (ordenados de forma crescente). os 4 primeiros são copiados para a coluna D, e os 4 últimos são copiados para a coluna E (e depois ordenados como feito no vídeo, de forma a parear o primeiro com o último, o segundo com o penúltimo, e assim do diante). O dado da quinta posição acaba não sendo utilizado para o calculo de b.

@meemee_l 3 жыл бұрын

@@andersoncanteli muito obrigada!

@rayaneleitedossantos9457 4 жыл бұрын

Salvou meu dia, obrigada!

@joaomarcoscandido6968 4 жыл бұрын

Obrigado pelo vídeo! Salvou demais

@thaislourenco1187 2 жыл бұрын

Muito bom! Obrigada!

@saraferreira9856 Жыл бұрын

Muito boa a sua explicação, só fiquei com uma dúvida: no meu caso tenho 7 amostras, como uso o elemento 4 para encontrar meu valor tabelado?

@andersoncanteli Жыл бұрын

Olá Sara! Obrigado! Em relação a sua dúvida, quando o tamanho amostral é ímpar nós ignoramos o valor central para obter os valor de b, mas ele conta como tamanho amostral para obtenção do valor crítico do teste. Para ficar um pouco mais claro, as as colunas D e E devem ter o mesmo tamanho, e você ignora o ponto central no calculo de b. Neste seu caso, com 7 pontos (ordenados de forma crescente). os 3 primeiros (menores) são copiados para a coluna D, e os 3 últimos (maiores) são copiados para a coluna E (e depois ordenados como feito no vídeo, de forma a parear o primeiro com o último, o segundo com o penúltimo, e assim por diante). O dado da quarta posição (a mediana no caso) acaba não sendo utilizado para o calculo de b. Fazendo desta forma, o resultado da planilha já estará correto.

@saraferreira9856 Жыл бұрын

Obrigada! E sobre o alfa, faria alguma diferença usar o 0,01 ao invés de 0,05?

@andersoncanteli Жыл бұрын

@@saraferreira9856 Pode fazer bastante diferença sim, especialmente se o tamanho amostral for pequeno (menos do que 20 pontos é considerado pequeno, dependendo do livro 30 ainda é pequeno). A recomendação geral é adotar 5% de confiança (eu sempre uso 5%).

@saraferreira9856 Жыл бұрын

Muito obrigada!

@cesarvicente6097 29 күн бұрын

Oi, tudo bem ? Muito obrigado pelo vídeo, só tenho uma dúvida, na metade superior você colocou os últimos 5 valores e na metade inferior você colocou os primeiros 5 valores. É para seguir desta forma, ou é preciso colocar de forma literal mesmo metade inferior (metade dos valores para baixo), metade superior (metade dos valores para cima) ? Obrigado desde já pelo seu vídeo e lhe desejo tudo de bom !

@andersoncanteli 29 күн бұрын

Olá! Não sei se entendi direito sua dúvida, mas é a metade inferior e a metade superior de forma a parear a maior observação com a menor observação e todos os pontos devem ser mantidos se o conjunto é par (não é só 5 observações não, são todas). Se o conjunto é ímpar, apenas o ponto central (a mediana) não entra nos cálculos. Não esqueça de ordernar os dados

@LuizFerreira-p6x Жыл бұрын

Sua explicação me salvou, obrigada. No caso dessa planilha, porque o nível de alfa está 0,05 e não 0,01? Queria entender a diferença e se há uma implicação quanto a escolha.

@andersoncanteli Жыл бұрын

Eu adoto alfa = 5% por que este é o valor consolidado pela literatura. E sim, tem implicações. Para dados que efetivamente SÃO NORMAIS, adotar alfa = 0,01 implica em aceitar H0 em 99% dos casos, enquanto que adotar alfa = 0,05 implica em aceitar H0 em 95% dos casos (na verdade o teste de SW é um pouco melhor do que estes valores para dados Normais). O problema esta em quando os dados NÃO SÃO NORMAIS, que é o poder do teste (o beta) Embora o teste de SW seja o melhor dentre todos os testes que temos, ele tem bastante dificuldade em rejeitar H0 (dados não Normais) para amostras NÃO NORMAIS e que é pequena. Por exemplo (adotando n= 30) e para citar alguns casos apenas, - se os dados são Uniformes, o teste de SW "acerta" em 33% das vezes para alfa = 5%, e "acerta" em 7,2% para alfa igual a 1% - se os dados são de Laplace, o teste de SW "acerta" em 32% das vezes para alfa = 5%, e "acerta" em 19% para alfa igual a 1% - se os dados são de Weibull, o teste de SW "acerta" em 98% das vezes para alfa = 5%, e "acerta" em 93% para alfa igual a 1% Atente que sempre que adotamos alfa igual a 1%, o teste performa pior (quando H0 é falsa). PS: estou escrevendo um paper sobre isto, por isto sei estes valores (que foram obtidos por simulação)

@LuizFerreira-p6x Жыл бұрын

@@andersoncanteli excelente! Obrigado pela resposta

@andersoncanteli 4 жыл бұрын

Link para baixar a planilha: bit.ly/teste_SW Link alternativo: github.com/andersonmdcanteli/statistic/blob/master/Shapiro_Wilk.xlsx

@heurygeologia Жыл бұрын

ganhou um inscrito, obrigado pela aula :)

@jhonjairoladinomontanez2849 4 жыл бұрын

Muchas gracias amigo :)

@BrenoSilva-uw7es 4 жыл бұрын

Prof, e se tiver 3 variáveis e inclusive relacionadas isoladamente para cada participante da pesquisa (tipo: quero saber se cada participante possui determinado valores correlacionados entre eles próprios e depois disso realizar análise para saber quantos estão proporcionais), o teste de Shapiro-Wilk pode ser aplicado nessas condições (com 3 variáveis para ser analisadas isoladamente em cada participante) ? Posso adc apenas 3 (ou 2 dados quando for para identificar assimetrias) dados numa única coluna de análise? Sendo essa a frase do meu orientador (que esta de férias hoje) "Será utilizado para verificar a normalidade na distribuição dos dados o teste de Shapiro-Wilk e teste de Levene para checar a homogeneidade das variâncias " Foi me passado que logo após seria realizado o teste de levene que inclusive ha tambem um tutorial kzbin.info/www/bejne/jXewe4uupdN5lcU muito bom no canal

@andersoncanteli 4 жыл бұрын

Olá @Breno Silva Através do teste de Shapiro-Wilk, você pode determinar se cada variável apresenta distribuição Normal. Se eu entendi corretamente a sua pergunta, você vai aplicar um teste de normalidade para cada uma destas variáveis, e não um único teste para as três variáveis. Pense assim: Suponha que você esta estudando 3 variedades de feijão, quanto ao peso da vagem após, sei lá, 10 dias que elas brotaram. São três variedades diferentes, então você deve testar pela normalidade do peso das vagens para cada uma das três variedades de feijão. Se você juntar as 3 variedades em uma unica coluna, você estará admitindo que as estas 3 variedades vêm de uma mesma população (seria uma genérica de feijão). Se você não soubesse que tem 3 variedades diferentes, e só te falassem que era feijão, seria aceitável pois você não tem a informação. Mas sabendo que são 3 variedades diferentes, juntar tudo como se fosse uma só não é adequado. Se eu fosse um revisor de um artigo que junta tudo em uma só variável para testar a quanto anormalidade, certamente eu recomendaria a rejeição do artigo. Se você juntar tudo em uma única coluna, terá apenas 1 variável, dai não tem como aplicar um teste de homogeneidade de variâncias. Neste vídeo que você cita, os dados estão na mesma coluna, mas repare que estão divididos entre cada uma das variáveis. Foi feito desta forma apenas para deixar a planilha o mais otimizada possível. Repare que as variedades da flor de Iris estão separadas, e os cálculos são agrupados dentro de cada variedade (primeiro eu faço para a variedade setosa, e depois copio e colo para as demais) . Se for verificar se o comprimento das sépalas segue, pelo menos aproximadamente, a distribuição Normal, seria aplicado o teste de Shapiro-WIlk para as 3 variedades separadamente, obtendo 3 valores diferentes da estatística de SW. Espero ter ajudado, Anderson

@BrenoSilva-uw7es 4 жыл бұрын

@@andersoncanteli Prof, agradeço bastante o retorno, o Sr foi muito forte nas palavras ao afirmar que se caso fosse aplicado erroneamente, invalidaria todo projeto, então apenas esclarecendo: no caso seria algo como analisar se cada voluntário da pesquisa possuem 3 variáveis iguais, utilizando essa linha eu teria que realizar uma análise individual em 3 colunas tendo os 3 dados na primeira linha? Ou analisar separadamente o 1º dado com o 2º, o 2º com o 3º e o 3º com o 1º? Poxa, o retorno do Sr foi muito forte mas agradeço bastante pela atenção

@andersoncanteli 4 жыл бұрын

@@BrenoSilva-uw7es Me desculpe se fui tão rígido assim, ou mau educado!!! não foi minha intenção! tenha certeza disso!! Acontece que eu prefiro apontar um erro quando vejo, pois o quanto mais cedo você descobre que tem algo errado, mais rápido você volta ao rumo certo (não estou falando que você esta errado ou não errado!!! Eu não tenho informações suficientes para julgar absolutamente nada do seu trabalho). Falo isso pois eu tive uma experiencia bem ruim durante meu doutorado onde fui perceber um erro alguns meses depois de te-lo cometido, e tive de refazer muita coisa. Por isso que prefiro já dizer algo assim que ouço algo que parece estranho. De qualquer forma, eu só estou dando pitaco, é você e seu orientador quem decide. :) Esclarecido isso, voltamos seu questionamento: Eu estou entendendo o seguinte: Você esta fazendo algo como um questionário, onde cada pessoa responde a três perguntas diferentes, ou seja, a mesma pessoa tem 3 respostas. Aí você esta na duvida de como realizar a entrada de dados. 1) Dai você esta na dúvida se utiliza o teste individual para 1 resposta por vez entre todos os voluntários, 2) ou se utiliza o teste para as 3 respostas ao mesmo tempo. Se é isto, eu faria utilizando o 1. Eu provavelmente não cogitaria o caso 2., pelo menos não com o teste de SW como fiz neste tutorial O problema do caso 2 é que as respostas são muito diferentes (mesmo que tenham a mesma dimensão, são diferentes), e junta-las no mesmo teste do tipo como apresento neste vídeo, não me parece adequado. Possivelmente existe formas de avaliar a normalidade levando em consideração as três respostas para cada individuo, mas dai a parte estatística não seria tão simples como eu fiz aqui (eu não sou estatístico!). Mas provavelmente o que você estaria procurando é o teste de MANOVA (ANOVA de múltiplos fatores), e teria de ver como verificar a normalidade para este tipo de dados (eu nunca cai neste tipo de analise, então nunca precisei aprender a respeito). De qualquer forma, com as informações que você descreveu, eu não tenho como aprofundar e lhe dar uma resposta precisa! Me desculpe!!

@BrenoSilva-uw7es 4 жыл бұрын

@@andersoncanteli Dr, na verdade trata de uma uma análise de desempenho, onde é necessário que cada participante realize 3 testes (diferentes), e nesses 3 testes ocorra normalidade, definindo se cada voluntário apresentou dados iguais, esses voluntários serão classificados como proporcionais, sendo possível comparar depois quem da amostra foi ou não proporcional no desempenho. Com esse esclarecimento, por favor me oriente apenas se será possível a aplicação do teste de normalidade? e qual a forma que seria o ideal para classificar cada voluntário individualmente e depois realizar o saldo final de quantos foram ou não homogêneos? Desde ja Agradeço bastante a atenção desprendida

@andersoncanteli 4 жыл бұрын

@@BrenoSilva-uw7es Vamos lá: Me parece que você não entendeu muito bem para que serve os testes de Normalidade e Homogeneidade de variâncias (os videos aqui são apenas tutoriais) O teste de Normalidade (como o de SW por exemplo, mas tem muitos outros onde cada um é indicado para um tipo de dado), verifica se um conjunto de dados segue a distribuição Normal. É bom que os seus dados apresentem distribuição Normal pois a maioria dos testes que existem para comparar populações são baseados nesse princípio (Normalidade). Já o teste e homogeneidade de variâncias (como o teste de Levene, mas tem muitos outros onde cada um é indicado para um tipo de dado), verifica se a variância de duas ou mais populações são parecidas. É bom que os seus dados apresentem variâncias homogêneas, pois isso determina qual teste é aplicado para comparar as populações, e faz muito mais sentido comparar coisas que tem comportamento parecido. Observe que, nem o teste de Normalidade (SW) nem o teste de homogeneidade (Levene), vão te informar se os as populações são ou não são iguais. Ou seja, se os voluntários tem desempenhos iguais (ou diferentes). Para isto, SE os dados dos voluntários forem Normais, você vai precisar de um teste t de Student (se forem apenas 2 voluntários) ou o teste de Tukey/Fisher (que são precedidos do teste de ANOVA). Mas SE os dados não forem Normais, dai são outros testes que são aplicados (como os testes de Wilcox, Mann-Whitney, Kruskal-Wallis, etc), ou você faz uma transformação nos dados (Boxcox, por exemplo), mas isso não é muito bom. Tentando voltar ao seu exemplo, vamos supor que você tem 10 voluntários que dirigem carro, e eles vão fazer 3 testes para ver se eles dirigem bem: tempo para estacionar, tempo para dar uma volta no quarteirão, e tempo para dar um cavalo de pau. Então, você precisa obter os dados: vamos supor que cada um dos voluntários faz o mesmo teste 5 vezes cada, então cada voluntário vai ter 15 medidas de tempo. Dai você testaria os dados desse voluntário são Normais ou não. Mas, não faz sentido juntar as medidas de tempo dos três testes, pois apesar de ser uma medida de tempo, são tarefas diferentes. É mais ou menos isso que eu tinha entendio que você queria fazer. O ideal (no meu ponto de vista) seria você avaliar a Normalidade dos dados de cada voluntario para cada teste. Neste caso, cada voluntário teria um teste SW para cada um dos três testes. Então, para os 10 voluntários, teria 30 testes de SW aplicados! Agora o teste de homogeneidade de variâncias, vai te dizer se a variação no tempo dentro de cada teste, é parecida entre os voluntários. Vamos supor que o voluntario A, tenha feito o primeiro teste em 120 segundos com variância de 3 segundos^2, o B tenha feita com 60 segundos e variância de 5 segundos^2, o terceiro com média de 150 s e variância de 30 segundos^2. Observe que a variância do voluntario A é parecida com o voluntario B (variância entre A e B homogêneas), mas a variância entre A e C são bem diferentes (variância entre A e C não homogêneas). Se os dados dos 3 são Normais: Para comparar a média dos tempos de A e B, utiliza-se o teste t de Student para dados com variâncias homogêneas. Para comparar a média dos tempos de A e C, utiliza-se o teste t de Student para variâncias não homogêneas. A diferença entre estes dois testes é a forma como combina a variância das duas médias. Mas, se você for comparar estes 3 voluntários, dai fica um pouco mais complicada, pois os testes são mais complexos e são pouco abordados em livros, pelo menos da minha área. Repare que, eu não estou comparando os resultados entre os três testes. Por isso o problema em juntar os dados para fazer aplicar o teste de Normalidade. Eu não sei se consegui te explicar direito, mas tomara que sim. Vou aproveitar e recomendar que você leia o livro "Applied Statistics and Probability for Engineers", de Douglas C. Montgomery. Tem versões em português, e é realmente muito bom.

@Hello-tv3iw 4 жыл бұрын

Please use the subtitle to English language

@lucianomoreira8244 5 жыл бұрын

Faltou compartilhar a planilha! ; - )

@andersoncanteli 5 жыл бұрын

O link para baixar a planilha está no cometário fixado desse vídeo. Eu acabei testar aqui, e o link esta funcionando normalmente, inclusive para outros usuários do drive, e sem logar em conta do Google. Mas aparentemente o bitly esta enfrentando alguma lentidão e o link não carrega, talvez por causa do redirecionamento do KZbin, ou algum problema interno, não tenho como saber. De qualquer forma, você pode tentar outra vez mais tarde, ou acessar o link verdadeiro através em um site que expande o link (como o checkshorturl.com, por exemplo), copiando e colando o link do comentário fixado desse vídeo. #respeito