Detección de Datos Anómalos (outliers) con Bosques de Aislamiento (iForests) y Python

  Рет қаралды 6,367

Codigo Maquina

Codigo Maquina

Күн бұрын

Пікірлер: 31
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en www.xiperia.com
@ricardollanos2472
@ricardollanos2472 2 жыл бұрын
Sin dudar, tu contenido es invaluable. Muchas gracias por compartirlo
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Gracias por darle valor al canal. Es una gran motivación :)
@fabiomorales5754
@fabiomorales5754 2 жыл бұрын
Octavio, muchas gracias. He aprendido mucho y afianzado conocimientos. Tus videos son excelentes!
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Te agradezco mucho tus comentarios. Este proyecto personal ha sido muy gratificante gracias a personas como tú :)
@cesaraugustoperez1814
@cesaraugustoperez1814 2 жыл бұрын
Excelente explicación!
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por comentar en el canal :)
@mejia414
@mejia414 2 жыл бұрын
Gracias señor sus explicaciones y dedicación me han ayudado mucho
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Estoy muy contento de leer que han sido de utilidad los videos. Muchas gracias por seguir el canal e interactuar :)
@oliverrojasconde9144
@oliverrojasconde9144 2 жыл бұрын
Excelentes videos, muy bien explicado todo, muchas gracias!!!!!!
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por tus comentarios y por ver el canal :)
@rockophill3934
@rockophill3934 2 жыл бұрын
En efecto Maestro Octavio, Gran tema complementario de outliers, bien detallado. se le agradece la enseñanza que con maestría compartes. Thanks!👌
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Gracias Rocko!!!
@Gustavo-rb6df
@Gustavo-rb6df Жыл бұрын
Gran vídeo, amigo. Eres un crack!!!
@CodigoMaquina
@CodigoMaquina Жыл бұрын
Muchas gracias por todo el apoyo. Saludos!! 😊
@msaretto
@msaretto 2 жыл бұрын
👍
@miguelsantiago5209
@miguelsantiago5209 7 ай бұрын
Excelente video. Una pregunta ¿Cómo puedo calcular el porcentaje de contaminación en un dataset con muchas filas?
@jrobledo25
@jrobledo25 2 жыл бұрын
Por favor un vídeo para utilizar técnicas de muestreo aleatorio para tratar con clases desbalanceadas 🙇🏻‍♂️
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Gracias por la sugerencia. Ya tengo en la mira un video justo con ese tema. De hecho, ya tenemos un video sobre clases desbalanceadas, pero asignando pesos a los errores de clasificación. Aquí va el link en caso de que desees verlo kzbin.info/www/bejne/aHfFppqnpKetb5Y
@jrobledo25
@jrobledo25 2 жыл бұрын
@@CodigoMaquina Sí fue muy bueno, aunque estoy en búsqueda de uno donde se usen técnicas de remuestreo aleatorio durante el momento de preprocesamiento, sin embargo ¡Muchas gracias por tu contenido!
@JulioTechIA
@JulioTechIA Жыл бұрын
Excelente explicación Octavio!! Solo te consulto: En mi Python me dio error cuando intenta usar 0.00 de contaminación, no me permitió, tuve que cambiar la línea a esto: c = [0.01, 0.05, 0.1]. A qué podría deberse?
@CodigoMaquina
@CodigoMaquina Жыл бұрын
Muchas gracias por tus comentarios y por la pregunta. El error que comentas podría deberse a cuestiones de versiones de la librería. Tal vez en una nueva versión están validando que incluyas valores de contaminación mayores a cero. De hecho, los niveles de contaminación solo tienen sentido si son mayores a cero. En mi caso utilice un valor de contaminación de cero para generar código compacto que me permitiera explicar los conceptos y visualizar los datos utilizando la menor cantidad de líneas de código. No obstante, en un análisis de datos anómalos sólo se utilizarían valores mayores a cero.
@JulioTechIA
@JulioTechIA Жыл бұрын
@@CodigoMaquina Muchísimas gracias por responder!!
@HPenarandaBello
@HPenarandaBello Жыл бұрын
Hola. Buen vídeo. ¿Cómo eliminar los registros que tienen datos atípicos? ¿Existe alguna librería?
@CodigoMaquina
@CodigoMaquina Жыл бұрын
Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video kzbin.info/www/bejne/Y4fYg2Rqht6fbac) 2) o aplicando filtros (favor de ver el siguiente video kzbin.info/www/bejne/i16agmChpM5gecU). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera: import numpy as np datos = np.array([10, 11, 12, 1000]) datos[datos>999] = 13
@HPenarandaBello
@HPenarandaBello Жыл бұрын
@@CodigoMaquina Muchas gracias.
@AlexRodriguez-go5pf
@AlexRodriguez-go5pf 2 жыл бұрын
Buen video! Una consulta, si tengo una columna con valores de 0% a 100%, pero hay outliers que exceden este rango, crees que deba reemplazarlos por NaN y luego imputarlos para no perder información?
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Gracias por tu comentario y por la pregunta. Desde mi punto de vista, en ese contexto, valores superiores al 100% no serían outliers sino datos inconsistentes. Si tienes muchos datos, podrías simplemente eliminar esos registros debido a las inconsistencias o ciertamente tratarlos como valores faltantes. La forma de saber que procedimiento podría ser mejor es a través de la experimentación. Espero mis comentarios sean de utilidad :)
@omarlora3591
@omarlora3591 6 ай бұрын
buenos días y gracias por el ejemplo, me esta dando un error: The 'contamination' parameter of IsolationForest must be a str among {'auto'} or a float in the range (0, 0.5]. Got 0.0 instead. el error es en la línea 12
@midnightshadow987
@midnightshadow987 2 жыл бұрын
Vine buscando cobre y encontré oro
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por comentar y por seguir el contenido del canal :)
Isolation Forest: A Tree based approach for Outlier Detection (Clearly Explained)
18:02
НАШЛА ДЕНЬГИ🙀@VERONIKAborsch
00:38
МишАня
Рет қаралды 2,6 МЛН
REAL 3D brush can draw grass Life Hack #shorts #lifehacks
00:42
MrMaximus
Рет қаралды 11 МЛН
Kluster Duo #настольныеигры #boardgames #игры #games #настолки #настольные_игры
00:47
[Tesla] The Future of Robotaxis and AI: What You Need to Know
8:49
Жадные алгоритмы
11:10
про АйТи | IT Pro
Рет қаралды 9 М.
Random Forest (Bosque Aleatorio) para Clasificación con Python
42:15
Codigo Maquina
Рет қаралды 15 М.
Isolation Forest for Outlier Detection within Python
14:40
Andy McDonald
Рет қаралды 28 М.
Árboles de Decisión (decision trees) usando Entropía con Python
41:51
Anomaly detection using iforest
33:58
AI with Dr. Mo
Рет қаралды 19 М.
НАШЛА ДЕНЬГИ🙀@VERONIKAborsch
00:38
МишАня
Рет қаралды 2,6 МЛН