Boa tarde. Excelente explicação... Onde consigo os valores tabelados com mais valores de replicações?
@andersoncanteli4 жыл бұрын
Olá Roger, Para n
@lulucasado4 жыл бұрын
Olá, bom dia. Sou nova nisso e gostei do vídeo, muito didático. Mas tenho algumas dúvidas. Preciso montar uma planilha - teste de Cochran (para detecção de outliers) comparando os resultados de 3 lotes, cuja faixa especificada é entre 90 e 110%. Posso utilizar essa mesma planilha ? Outra coisa: de onde saíram os valores que estão nas colunas M,N e O??
@andersoncanteli4 жыл бұрын
Olá Luciane, Até onde eu saiba, o teste de Cochran é utilizado para comparar variâncias, detectando se elas são ou não são homogêneas, não tendo relação direta com testes de outliers. Mas estes testes muitas vezes tem nomes parecidos (pois podem ter sido desenvolvidos pelo mesmo autor) e se confundem, talvez possa ter um teste também chamado de Cochran para identificar outliers que eu desconheça. Os valores críticos (colunas M, N e O) foram retirados do artigo original (W. J. Dixon; Processing Data for Outliers, Biometrics, Vol. 9, No. 1 (Mar., 1953), pp. 74-89.)
@lulucasado4 жыл бұрын
@@andersoncanteli ok muito obrigada pela informação!!
@mariliamenezes88513 жыл бұрын
Oi Anderson, tudo bem? Na planilha que você disponibilizou, você considera os valores em módulo? Obrigada por compartilhar seu conhecimento.
@andersoncanteli3 жыл бұрын
Olá @Marília Menezes! Você se refere a qual parte do vídeo? Ou qual célula da planilha? Faz tanto tempo que montei essa planilha, eu preciso de mais infos para poder te responder de forma correta :)
@mariliamenezes88513 жыл бұрын
@@andersoncanteli é que estava calculando para umas amostras aqui e vi que o correto era calcular em módulo, na hora de calcular o próprio Q. A diferença entre o segundo e o primeiro valor.
@andersoncanteli3 жыл бұрын
@@mariliamenezes8851 Pelo que eu me recordo, os valores não precisavam ser calculados em módulo, pois o resultado deveria ser sempre positivo. A amplitude sempre será positiva, pois é sempre o maior valor (cel C4) menos o menor valor (cel C2). O Qinferior, sempre será positivo pois é sempre o segundo menor valor (cel C3) menos o menor valor (cel C2). O Qsuperior, sempre será positivo pois é sempre o maior valor (cel C4) menos o segundo maior valor (cel C5). Como os valores de Qinferior e Qsuperior sempre são positivos, e os valores tabelados também sempre são positivos, a comparação sempre será feita de forma correta. Mas, por favor, caso tenha coisa errada na planilha, me aponte o erro para que eu possa corrigir 👍
@mariliamenezes88513 жыл бұрын
@@andersoncanteli Muito bom Anderson, gostei muito da sua explicação e do seu vídeo. Vc é ótimo! Acredito não ter erro nenhum, a fórmula que eu estava usando é que utilizava o menor valor primeiro e depois subtraia o maior, fazendo com que resultasse em valores negativos, e aí utilizava o módulo. Mas, não faz diferença se nós utilizarmos o valor do maior primeiro e depois subtrairmos o segundo, e dessa forma não precisa utilizar o módulo. Muito obrigada.
@andersoncanteli3 жыл бұрын
@@mariliamenezes8851 Que bom que esta certo! Mas vc tem razão... e teria sido mais simples ter utilizado o módulo, para evitar esse tipo de problema e até ajudaria a explicar o passo a asso! Muito obrigado :D
@ralb37493 жыл бұрын
Olá Anderson, parabéns pelo vídeo, muito didático. Fiquei com uma dúvida, devo realizar o teste Q no conjunto amostral (valores de todos os tratamentos), ou separadamente em cada grupo de dados de tratamentos? Obrigado pela atenção.
@andersoncanteli3 жыл бұрын
Olá! Que bom que tenha gostado! Quanto a sua pergunta, em geral, a análise de outliers é feita dentro de um grupo específico, mas a reposta é depende. Por exemplo, se eu for comparar a temperatura de latas de refrigerante mantidas em 3 geladeiras diferentes por 24 horas. Suponha que em cada uma das 3 geladeiras, eu coloque 15 latas (5 de coca, 5 de suco del vale e 5 de fanta uva). Eu poderia procurar por outliers nos dados de 2 formas: 1) verificar por outliers dentro de cada geladeira, considerando as 15 latas juntas. 2) Ou eu poderia verificar por outliers dentro de cada tipo de refrigerante dentro de cada geladeira. Se o objetivo do teste for comparar a temperatura entre as geladeiras, a forma 1 parece mais adequada. Mas se o objetivo for comparar a temperatura entre as geladeiras considerando os tipos de líquidos, dai a segunda é mais adequada. Então, depende do que você esta querendo fazer com os dados. Mas, EU optaria pela a 2 opção, verificando por outliers dentro de cada grupo mesmo que a ideia fosse comparar a temperatura entre as geladeiras, pois os líquidos são diferentes. PS: não estou considerando variáveis da geladeira, como a posição das latas dentro da geladeira, fluxo de ar frio, potencia da geladeira...
@ralb37493 жыл бұрын
@@andersoncanteli Percebi perfeitamente o que quis dizer. No caso da identificação de um outlier dentro deste grupo X que foi submetido, o que acha da substituição do mesmo pelo valor da média dos outros valores considerados normais?
@andersoncanteli3 жыл бұрын
@@ralb3749 Depende muito do tipo e da quantidade de dados que você tem. Quando temos muitos pontos (especialmente quando falamos em machine learning), é praxe substituir pontos faltantes pelo valor médio, pois ele não alteraria a média nem variância dos valores. Mas com poucos pontos, o outlier pode ser só um problema de amostragem, e ele não ser realmente um outlier. No que eu trabalho, eu só removo/substituo dados quando sei que o ponto tem problemas. Voltando ao exemplo da temperatura das latas, caso uma lata fosse considerada um outlier, eu iria estudar aquela lata pra saber o que aconteceu. Será que ela ficou em um lugar diferente das outras? Será que alguém não tirou ela no meio da noite pra colocar outra coisa? Será que alguém colocou uma panela quente perto dela e por isso ela não resfrio igual as outras? Se após esse investigação, eu não conseguisse determinar o motivo do erro, eu provavelmente manteria esse valor, ou obteria uma nova amostra. Mas se eu souber a fonte do erro, eu posso remover o outiler com tranquilidade. Um outlier pode tanto um erro grosseiro, como uma oportunidade experimental. Investigar a sua fonte é importante para a tomada de decisão
@jeanvitor18985 жыл бұрын
Professor, boa tarde. Qual teste usar quando tenho repetições que são superiores a 10, 100 ou até 300 para identificar outliers?
@andersoncanteli5 жыл бұрын
Olá Jean, Dependendo do tamanho da amostra, você poderia utilizar o teste Q mesmo, mas os cálculos são um pouco diferentes (para n
@WellingtonSouza32 жыл бұрын
parabéns
@andersoncanteli4 жыл бұрын
Download: bit.ly/teste_Q Link alternativo: github.com/andersonmdcanteli/statistic/blob/master/testeQ_final.xlsx
@karennsilveira3 жыл бұрын
se o Qsuperior é menor que o maior valor, ou seja, o maior valor está fora do valor de Qsuperior, então não deveria ser uma anomalia? está fora dos limites não?
@karennsilveira3 жыл бұрын
no vídeo se Qsuperior
@andersoncanteli3 жыл бұрын
Olá @Kareen Silveira! Então, repare que o teste compara o valor de Qsuperior com o valor tabelado .Me parece que você entendeu que o valor de Qsuperior seria comparado com o maior valor do conjunto. A ideia desse teste é olhar a distancia entre os valores mais extremos do cojunto (mínimos e máximos), e verificar se esta distancia é grande o suficiente para considerar o maior valor (ou o menor) como uma anomalia. Por isso, compara-se a relação Qsuperior com o valor tabelado, e não o maior valor com o valor tabelado. A divisão pela amplitude é uma forma de normalizar os valores. Neste caso, temos que comparar o valor Qsuperior (0,3) com o valor tabelado (0,466 para 95% de confiança). Como 0,3 é menor do que 0,466, o valor máximo (5,4) não é uma anomalia (com 95% de confiança) E temos exatamente a mesma lógica para o valor inferior: Comparamos o Q inferior (0,2) com o valor tabelado (0,466 para 95% de confiança). Como 0,2 é menor do que 0,466, o valor mínimo (4,4) não é uma anomalia (com 95% de confiança) Observe que a comparação é sempre entre o valor de Qsuperior (ou inferior, que é a estatística do teste) com o valor tabelado
@karennsilveira3 жыл бұрын
@@andersoncanteli opa! verdade.... entendi. Última pergunta, esse valor tabelado é de quê?
@andersoncanteli3 жыл бұрын
@@karennsilveira =D Os valores tabelados são valores baseados em distribuições. São valores críticos que determinam um limite para aceitar a hipótese nula. Esse valores foram obitdos de observações do mundo real, e utilizaram inferencia estatistica para chegar a estes valores. Mas eu não me lembro qual distribuição esse teste usa para chegar nestes valores tabelados, mas provavalmente esta relacionado com a distribuição Normal Da uma olhada no artigo original (Dixon, W. J.; Processing Data for Outliers, Biometrics, Vol. 9, No. 1 (Mar., 1953), pp. 74-89), talvez lá tenha uma resposta melhor que esse minha agora rsrs. Link para o artigo: webspace.ship.edu/pgmarr/Geo441/Readings/Dixon%201953%20-%20Processing%20Data%20for%20Outliers.pdf
@alcirgrohmann68653 жыл бұрын
Caramba... parece há um descompasso entre a fala e a escrita... ou estou enganado ??? :- (
@andersoncanteli3 жыл бұрын
Olá! Vc diz as legendas não estão sincronizadas com o áudio do vídeo?