Detección de Datos Anómalos (outliers) con Bosques de Aislamiento (iForests) y Python

Рет қаралды 6,367

Күн бұрын

Пікірлер: 31

@CodigoMaquina 2 жыл бұрын

👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en www.xiperia.com

@ricardollanos2472 2 жыл бұрын

Sin dudar, tu contenido es invaluable. Muchas gracias por compartirlo

@CodigoMaquina 2 жыл бұрын

Gracias por darle valor al canal. Es una gran motivación :)

@fabiomorales5754 2 жыл бұрын

Octavio, muchas gracias. He aprendido mucho y afianzado conocimientos. Tus videos son excelentes!

@CodigoMaquina 2 жыл бұрын

Te agradezco mucho tus comentarios. Este proyecto personal ha sido muy gratificante gracias a personas como tú :)

@cesaraugustoperez1814 2 жыл бұрын

Excelente explicación!

@CodigoMaquina 2 жыл бұрын

Muchas gracias por comentar en el canal :)

@mejia414 2 жыл бұрын

Gracias señor sus explicaciones y dedicación me han ayudado mucho

@CodigoMaquina 2 жыл бұрын

Estoy muy contento de leer que han sido de utilidad los videos. Muchas gracias por seguir el canal e interactuar :)

@oliverrojasconde9144 2 жыл бұрын

Excelentes videos, muy bien explicado todo, muchas gracias!!!!!!

@CodigoMaquina 2 жыл бұрын

Muchas gracias por tus comentarios y por ver el canal :)

@rockophill3934 2 жыл бұрын

En efecto Maestro Octavio, Gran tema complementario de outliers, bien detallado. se le agradece la enseñanza que con maestría compartes. Thanks!👌

@CodigoMaquina 2 жыл бұрын

Gracias Rocko!!!

@Gustavo-rb6df Жыл бұрын

Gran vídeo, amigo. Eres un crack!!!

@CodigoMaquina Жыл бұрын

Muchas gracias por todo el apoyo. Saludos!! 😊

@msaretto 2 жыл бұрын

👍

@miguelsantiago5209 7 ай бұрын

Excelente video. Una pregunta ¿Cómo puedo calcular el porcentaje de contaminación en un dataset con muchas filas?

@jrobledo25 2 жыл бұрын

Por favor un vídeo para utilizar técnicas de muestreo aleatorio para tratar con clases desbalanceadas 🙇🏻‍♂️

@CodigoMaquina 2 жыл бұрын

Gracias por la sugerencia. Ya tengo en la mira un video justo con ese tema. De hecho, ya tenemos un video sobre clases desbalanceadas, pero asignando pesos a los errores de clasificación. Aquí va el link en caso de que desees verlo kzbin.info/www/bejne/aHfFppqnpKetb5Y

@jrobledo25 2 жыл бұрын

@@CodigoMaquina Sí fue muy bueno, aunque estoy en búsqueda de uno donde se usen técnicas de remuestreo aleatorio durante el momento de preprocesamiento, sin embargo ¡Muchas gracias por tu contenido!

@JulioTechIA Жыл бұрын

Excelente explicación Octavio!! Solo te consulto: En mi Python me dio error cuando intenta usar 0.00 de contaminación, no me permitió, tuve que cambiar la línea a esto: c = [0.01, 0.05, 0.1]. A qué podría deberse?

@CodigoMaquina Жыл бұрын

Muchas gracias por tus comentarios y por la pregunta. El error que comentas podría deberse a cuestiones de versiones de la librería. Tal vez en una nueva versión están validando que incluyas valores de contaminación mayores a cero. De hecho, los niveles de contaminación solo tienen sentido si son mayores a cero. En mi caso utilice un valor de contaminación de cero para generar código compacto que me permitiera explicar los conceptos y visualizar los datos utilizando la menor cantidad de líneas de código. No obstante, en un análisis de datos anómalos sólo se utilizarían valores mayores a cero.

@JulioTechIA Жыл бұрын

@@CodigoMaquina Muchísimas gracias por responder!!

@HPenarandaBello Жыл бұрын

Hola. Buen vídeo. ¿Cómo eliminar los registros que tienen datos atípicos? ¿Existe alguna librería?

@CodigoMaquina Жыл бұрын

Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video kzbin.info/www/bejne/Y4fYg2Rqht6fbac) 2) o aplicando filtros (favor de ver el siguiente video kzbin.info/www/bejne/i16agmChpM5gecU). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera: import numpy as np datos = np.array([10, 11, 12, 1000]) datos[datos>999] = 13

@HPenarandaBello Жыл бұрын

@@CodigoMaquina Muchas gracias.

@AlexRodriguez-go5pf 2 жыл бұрын

Buen video! Una consulta, si tengo una columna con valores de 0% a 100%, pero hay outliers que exceden este rango, crees que deba reemplazarlos por NaN y luego imputarlos para no perder información?

@CodigoMaquina 2 жыл бұрын

Gracias por tu comentario y por la pregunta. Desde mi punto de vista, en ese contexto, valores superiores al 100% no serían outliers sino datos inconsistentes. Si tienes muchos datos, podrías simplemente eliminar esos registros debido a las inconsistencias o ciertamente tratarlos como valores faltantes. La forma de saber que procedimiento podría ser mejor es a través de la experimentación. Espero mis comentarios sean de utilidad :)

@omarlora3591 6 ай бұрын

buenos días y gracias por el ejemplo, me esta dando un error: The 'contamination' parameter of IsolationForest must be a str among {'auto'} or a float in the range (0, 0.5]. Got 0.0 instead. el error es en la línea 12