Teste Q para identificação de outliers

Teste Q para identificação de outliers - Tutorial Excel

Рет қаралды 8,561

Anderson Canteli

Күн бұрын

Пікірлер: 26

@rogeroliveira6857 4 жыл бұрын

Boa tarde. Excelente explicação... Onde consigo os valores tabelados com mais valores de replicações?

@andersoncanteli 4 жыл бұрын

Olá Roger, Para n

@lulucasado 4 жыл бұрын

Olá, bom dia. Sou nova nisso e gostei do vídeo, muito didático. Mas tenho algumas dúvidas. Preciso montar uma planilha - teste de Cochran (para detecção de outliers) comparando os resultados de 3 lotes, cuja faixa especificada é entre 90 e 110%. Posso utilizar essa mesma planilha ? Outra coisa: de onde saíram os valores que estão nas colunas M,N e O??

@andersoncanteli 4 жыл бұрын

Olá Luciane, Até onde eu saiba, o teste de Cochran é utilizado para comparar variâncias, detectando se elas são ou não são homogêneas, não tendo relação direta com testes de outliers. Mas estes testes muitas vezes tem nomes parecidos (pois podem ter sido desenvolvidos pelo mesmo autor) e se confundem, talvez possa ter um teste também chamado de Cochran para identificar outliers que eu desconheça. Os valores críticos (colunas M, N e O) foram retirados do artigo original (W. J. Dixon; Processing Data for Outliers, Biometrics, Vol. 9, No. 1 (Mar., 1953), pp. 74-89.)

@lulucasado 4 жыл бұрын

@@andersoncanteli ok muito obrigada pela informação!!

@mariliamenezes8851 3 жыл бұрын

Oi Anderson, tudo bem? Na planilha que você disponibilizou, você considera os valores em módulo? Obrigada por compartilhar seu conhecimento.

@andersoncanteli 3 жыл бұрын

Olá @Marília Menezes! Você se refere a qual parte do vídeo? Ou qual célula da planilha? Faz tanto tempo que montei essa planilha, eu preciso de mais infos para poder te responder de forma correta :)

@mariliamenezes8851 3 жыл бұрын

@@andersoncanteli é que estava calculando para umas amostras aqui e vi que o correto era calcular em módulo, na hora de calcular o próprio Q. A diferença entre o segundo e o primeiro valor.

@andersoncanteli 3 жыл бұрын

@@mariliamenezes8851 Pelo que eu me recordo, os valores não precisavam ser calculados em módulo, pois o resultado deveria ser sempre positivo. A amplitude sempre será positiva, pois é sempre o maior valor (cel C4) menos o menor valor (cel C2). O Qinferior, sempre será positivo pois é sempre o segundo menor valor (cel C3) menos o menor valor (cel C2). O Qsuperior, sempre será positivo pois é sempre o maior valor (cel C4) menos o segundo maior valor (cel C5). Como os valores de Qinferior e Qsuperior sempre são positivos, e os valores tabelados também sempre são positivos, a comparação sempre será feita de forma correta. Mas, por favor, caso tenha coisa errada na planilha, me aponte o erro para que eu possa corrigir 👍

@mariliamenezes8851 3 жыл бұрын

@@andersoncanteli Muito bom Anderson, gostei muito da sua explicação e do seu vídeo. Vc é ótimo! Acredito não ter erro nenhum, a fórmula que eu estava usando é que utilizava o menor valor primeiro e depois subtraia o maior, fazendo com que resultasse em valores negativos, e aí utilizava o módulo. Mas, não faz diferença se nós utilizarmos o valor do maior primeiro e depois subtrairmos o segundo, e dessa forma não precisa utilizar o módulo. Muito obrigada.

@andersoncanteli 3 жыл бұрын

@@mariliamenezes8851 Que bom que esta certo! Mas vc tem razão... e teria sido mais simples ter utilizado o módulo, para evitar esse tipo de problema e até ajudaria a explicar o passo a asso! Muito obrigado :D

@ralb3749 3 жыл бұрын

Olá Anderson, parabéns pelo vídeo, muito didático. Fiquei com uma dúvida, devo realizar o teste Q no conjunto amostral (valores de todos os tratamentos), ou separadamente em cada grupo de dados de tratamentos? Obrigado pela atenção.

@andersoncanteli 3 жыл бұрын

Olá! Que bom que tenha gostado! Quanto a sua pergunta, em geral, a análise de outliers é feita dentro de um grupo específico, mas a reposta é depende. Por exemplo, se eu for comparar a temperatura de latas de refrigerante mantidas em 3 geladeiras diferentes por 24 horas. Suponha que em cada uma das 3 geladeiras, eu coloque 15 latas (5 de coca, 5 de suco del vale e 5 de fanta uva). Eu poderia procurar por outliers nos dados de 2 formas: 1) verificar por outliers dentro de cada geladeira, considerando as 15 latas juntas. 2) Ou eu poderia verificar por outliers dentro de cada tipo de refrigerante dentro de cada geladeira. Se o objetivo do teste for comparar a temperatura entre as geladeiras, a forma 1 parece mais adequada. Mas se o objetivo for comparar a temperatura entre as geladeiras considerando os tipos de líquidos, dai a segunda é mais adequada. Então, depende do que você esta querendo fazer com os dados. Mas, EU optaria pela a 2 opção, verificando por outliers dentro de cada grupo mesmo que a ideia fosse comparar a temperatura entre as geladeiras, pois os líquidos são diferentes. PS: não estou considerando variáveis da geladeira, como a posição das latas dentro da geladeira, fluxo de ar frio, potencia da geladeira...

@ralb3749 3 жыл бұрын

@@andersoncanteli Percebi perfeitamente o que quis dizer. No caso da identificação de um outlier dentro deste grupo X que foi submetido, o que acha da substituição do mesmo pelo valor da média dos outros valores considerados normais?

@andersoncanteli 3 жыл бұрын

@@ralb3749 Depende muito do tipo e da quantidade de dados que você tem. Quando temos muitos pontos (especialmente quando falamos em machine learning), é praxe substituir pontos faltantes pelo valor médio, pois ele não alteraria a média nem variância dos valores. Mas com poucos pontos, o outlier pode ser só um problema de amostragem, e ele não ser realmente um outlier. No que eu trabalho, eu só removo/substituo dados quando sei que o ponto tem problemas. Voltando ao exemplo da temperatura das latas, caso uma lata fosse considerada um outlier, eu iria estudar aquela lata pra saber o que aconteceu. Será que ela ficou em um lugar diferente das outras? Será que alguém não tirou ela no meio da noite pra colocar outra coisa? Será que alguém colocou uma panela quente perto dela e por isso ela não resfrio igual as outras? Se após esse investigação, eu não conseguisse determinar o motivo do erro, eu provavelmente manteria esse valor, ou obteria uma nova amostra. Mas se eu souber a fonte do erro, eu posso remover o outiler com tranquilidade. Um outlier pode tanto um erro grosseiro, como uma oportunidade experimental. Investigar a sua fonte é importante para a tomada de decisão

@jeanvitor1898 5 жыл бұрын

Professor, boa tarde. Qual teste usar quando tenho repetições que são superiores a 10, 100 ou até 300 para identificar outliers?

@andersoncanteli 5 жыл бұрын

Olá Jean, Dependendo do tamanho da amostra, você poderia utilizar o teste Q mesmo, mas os cálculos são um pouco diferentes (para n

@WellingtonSouza3 2 жыл бұрын

parabéns

@andersoncanteli 4 жыл бұрын

Download: bit.ly/teste_Q Link alternativo: github.com/andersonmdcanteli/statistic/blob/master/testeQ_final.xlsx

@karennsilveira 3 жыл бұрын

se o Qsuperior é menor que o maior valor, ou seja, o maior valor está fora do valor de Qsuperior, então não deveria ser uma anomalia? está fora dos limites não?

@karennsilveira 3 жыл бұрын

no vídeo se Qsuperior

@andersoncanteli 3 жыл бұрын

Olá @Kareen Silveira! Então, repare que o teste compara o valor de Qsuperior com o valor tabelado .Me parece que você entendeu que o valor de Qsuperior seria comparado com o maior valor do conjunto. A ideia desse teste é olhar a distancia entre os valores mais extremos do cojunto (mínimos e máximos), e verificar se esta distancia é grande o suficiente para considerar o maior valor (ou o menor) como uma anomalia. Por isso, compara-se a relação Qsuperior com o valor tabelado, e não o maior valor com o valor tabelado. A divisão pela amplitude é uma forma de normalizar os valores. Neste caso, temos que comparar o valor Qsuperior (0,3) com o valor tabelado (0,466 para 95% de confiança). Como 0,3 é menor do que 0,466, o valor máximo (5,4) não é uma anomalia (com 95% de confiança) E temos exatamente a mesma lógica para o valor inferior: Comparamos o Q inferior (0,2) com o valor tabelado (0,466 para 95% de confiança). Como 0,2 é menor do que 0,466, o valor mínimo (4,4) não é uma anomalia (com 95% de confiança) Observe que a comparação é sempre entre o valor de Qsuperior (ou inferior, que é a estatística do teste) com o valor tabelado

@karennsilveira 3 жыл бұрын

@@andersoncanteli opa! verdade.... entendi. Última pergunta, esse valor tabelado é de quê?

@andersoncanteli 3 жыл бұрын

@@karennsilveira =D Os valores tabelados são valores baseados em distribuições. São valores críticos que determinam um limite para aceitar a hipótese nula. Esse valores foram obitdos de observações do mundo real, e utilizaram inferencia estatistica para chegar a estes valores. Mas eu não me lembro qual distribuição esse teste usa para chegar nestes valores tabelados, mas provavalmente esta relacionado com a distribuição Normal Da uma olhada no artigo original (Dixon, W. J.; Processing Data for Outliers, Biometrics, Vol. 9, No. 1 (Mar., 1953), pp. 74-89), talvez lá tenha uma resposta melhor que esse minha agora rsrs. Link para o artigo: webspace.ship.edu/pgmarr/Geo441/Readings/Dixon%201953%20-%20Processing%20Data%20for%20Outliers.pdf