Preprocesamiento de Datos en R: Detección de Outliers

  Рет қаралды 20,788

Rocio Chavez Ciencia de Datos

Rocio Chavez Ciencia de Datos

Күн бұрын

Пікірлер: 66
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 7 ай бұрын
Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.
@antt5602
@antt5602 Жыл бұрын
Rocio Chavez ¡Muchas gracias por compartir tu conocimiento! Realicé el procedimiento con mi data...
@AngelGlezChannel
@AngelGlezChannel 4 жыл бұрын
Muchísimas gracias por darse el tiempo de enseñar vía este medio, la quiero mucho
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 2 жыл бұрын
Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas: - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de KZbin promueva mi contenido - Dejándome un comentario - Suscribiéndote a mi canal - Compartiendo mi canal en tus redes sociales - Presionando el ícono "Gracias" y haciendo una donación
@Glock_50
@Glock_50 2 жыл бұрын
llevaba horas buscando una explicacion tan sencilla, muchas gracias
@mauriciojoserozas9964
@mauriciojoserozas9964 4 жыл бұрын
Hola buenas! Muy buenos videos, me han ayudado mucho y estoy muy agradecido contigo Rocio. Traté de desarrollar un pequeño codigo que permita resumir la iteración, lo adjunto a continuación: a
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Muchas gracias Mauricio!! Muy útil la implementación del ciclo!! ;)
@edwinulisesx
@edwinulisesx 2 жыл бұрын
excelente video, me sirvió mucho
@forredvelvet8940
@forredvelvet8940 3 жыл бұрын
Muchísimas gracias, este video me ayudo bastante!!!
@josed.gonzalez1524
@josed.gonzalez1524 3 жыл бұрын
Excelente explicacion, clarisima.
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 2 жыл бұрын
Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos
@aldoyactayo05
@aldoyactayo05 4 жыл бұрын
Hola Rocio, cómo estas? una consulta en el caso que yo tenga varias columnas o variables y realice la deteccion de outliers en cada una. Cada columna tendra su propia cantidad de outliers, y al quitarlos cada columna se quedara con diferentes observaciones (filas). He tratado de hacer un data.frame para utilizar las columnas sin outliers para trabajar otras pruebas pero me sale error porque no encaja. Que podria ahcer para formar una nueva tabla de datos sin outliers y los pueda usar de nuevo para hacer otras pruebas? Muchas gracias!
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola Aldo! Cuando detectas un outlier, lo que necesitas hacer es una de dos cosas. borrar el valor de la celda y que quede como si fuera un "Not Available" en la columna o bien quitar toda la fila. Espero haber sido clara en la explicación :)
@aldoyactayo05
@aldoyactayo05 4 жыл бұрын
@@RocioChavezCienciadeDatos muchas gracias! entonces voy a reemplazar cada uno de los outliers por un NA.
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
@@aldoyactayo05 Muy bien!
@aldoyactayo05
@aldoyactayo05 4 жыл бұрын
@@RocioChavezCienciadeDatos , te deje otra pequeña consulta en "Análisis exploratorio con ACP en R".Nuevamente muchas gracias!
@EducacionDigitalHoy
@EducacionDigitalHoy 4 жыл бұрын
Hola Rocio, tengo una consulta acerca si seria aconsejable reemplazar los outliers para aplicarlo en un modelo ARIMA o simplemente dejarlo como esta para posteriormente ajustarlo al modelo. saludos
@oscarsantiagolariosramirez7065
@oscarsantiagolariosramirez7065 3 жыл бұрын
Buen día, una consulta para eliminar los datos atípicos rios_SA
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 3 жыл бұрын
Hola Oscar! Si gustas envíame una captura de pantalla a rociochavezmx@yahoo.com en donde se muestre el código que utilizaste unas dos lineas antes y el error que te está marcando
@oscarsantiagolariosramirez7065
@oscarsantiagolariosramirez7065 3 жыл бұрын
@@RocioChavezCienciadeDatos buenas noches, ya lo solucione gracias :)
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 3 жыл бұрын
Me alegra que ya lo hayas podido solucionar Oscar ;)
@katucalalangui6358
@katucalalangui6358 3 жыл бұрын
Disculpa a mi me sale lo mismo como lo solucionaste amigo 😓
@GAR-wj5fb
@GAR-wj5fb 2 жыл бұрын
hola rocio gracias por lo videos, outliers cuando se elimina se reduce numero de filas , yo no quiero que se redusca solo quiero reemplazar con el valor NA como se aria el codigo, espero su respuesta gracias
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 2 жыл бұрын
Hola! La información contenida en esta página podría serte de utilidad: stackoverflow.com/questions/54993511/how-to-replace-outliers-with-na-in-r-from-vector-created-with-boxplotout
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Para llevar a cabo el pre-procesamiento de tus datos y poder obtener información confiable en tus análisis, visita mi lista de reproducción llamada Pre-procesamiento de Datos en R kzbin.info/aero/PLUofJx5RUeFqGJJxKflkhDRTot29M7CYj
@felisacruzpichardo6593
@felisacruzpichardo6593 2 жыл бұрын
Gracias por la explicación, pero por qué no logro correr ninguno de los scripts, no se si no estoy bajando bien los archivos o mi versión de R es diferente, bajé la última versión een enero 2022
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 2 жыл бұрын
Hola Felisa! Necesitaría revisar qué está pasando. Si todavía te da problema el código, si gustas envíame un correo a rociochavezmx@yahoo.com
@camilazufriategui5149
@camilazufriategui5149 Жыл бұрын
Hola! Cómo hago para hacer esto mismo pero en el caso de que yo tengo un factor con 4 niveles? Es decir quisiera calcular los outliers para cada uno de los niveles o tratamientos. Muchas gracias
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos Жыл бұрын
Hola Camila! Puedes convertir tus variables a numéricas o a tipo dummy. En mi canal encontrarás videos al respecto ;)
@oscarsantiagolariosramirez7065
@oscarsantiagolariosramirez7065 3 жыл бұрын
Buenas noches, como puedo hacer cuando las datas las reconoce con formato de MINITAB setwd("J:/año 2021/Ejemplo1/procesamiento datos/Datas/Niveles de contaminacion.csv")
@PrototypePaolo
@PrototypePaolo 9 ай бұрын
Hola una pregunta, si en vez de eliminar los outliers los quiero reemplazar con algun valor como la media o mediana, cómo se haría?
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 9 ай бұрын
Hola! En este video puedes encontrar información acerca del reemplazo de valores perdidos: kzbin.info/www/bejne/apKXhWp3arCpba8
@aldoyactayo05
@aldoyactayo05 4 жыл бұрын
Hola Rocío, logré detectar los outliers, una consulta, en mi caso las filas tienen nombres, cómo podría saber cuáles filas son outliers? Muchas gracias =)
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola Aldo, se me ocurre que podrías llevar a cabo los pasos que vienen en el video Filtros en R kzbin.info/www/bejne/b6qZgmeeitaYeK8 para que obtengas solo las filas que tienen los outliers y así puedas saber cuales individuos los tienen. Espero que te sea de utilidad esta información ;)
@aldoyactayo05
@aldoyactayo05 4 жыл бұрын
@@RocioChavezCienciadeDatos Muchas gracias Rocío! Lo reviso en este momento! =)
@electron_ald5333
@electron_ald5333 4 жыл бұрын
hola, quisiera saber donde puedo conseguir más datos para trabajar en R, o de donde los obtienes.
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Aunque ya te contesté por el correo, pongo aquí el link de las bases de datos que usualmente se utilizan en machine learning, por si alguien mas tiene la misma duda: archive.ics.uci.edu/ml/index.php Saludos ;)
@luisdavid1212
@luisdavid1212 4 жыл бұрын
Hola Rocío. En caso de querés contemplar estos outliers en nuestro análisis recomiendas los reemplazos con la media o la mediana?? En caso contrario que harías?
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola Luis David! Entre la media y la mediana, yo me inclinaría por la media. Sin embargo, existe otro método que considero aún mejor, que es el de los K-Vecinos. En el canal tengo otro video llamado "Preprocesamiento de Datos en R: Algunas Técnicas de reemplazo de valores perdidos" y allí incluyo éste método. Espero que te sea de utilidad :)
@luisdavid1212
@luisdavid1212 4 жыл бұрын
@@RocioChavezCienciadeDatos hola Rocío muchas gracias por tu respuesta. Veo que el vídeo que me mencionas aplica para cuando tenemos datos faltantes. De esta misma manera podemos tratar a los outliers. Tengo una muestra de 2.5 M que al percentil 99 el valor máximo es 37 y en el último percentil contiene valores hasta 50000, es correcto hacer un reemplazo o sustitución de esto valores o es mejor trabajarlos cómo están?
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
@@luisdavid1212 Si tu base de datos tiene más columnas con valores que no contengan outliers en las filas con outliers, yo lo que haría sería quitar los outliers y reemplazarlos. De esta manera podrías aprovechar los valores de las demás columnas para tu análisis. De lo contrario, yo qiitaría las filas completas con outliers y las analizaría por separado, ya que estas podrían darte información valiosa.
@wazudrakon
@wazudrakon 4 жыл бұрын
Hola, son muy útiles tus videos, gracias :). Tengo una duda, cada vez que se modifica el dataframe se guarda como uno nuevo??? Mi pregunta va porque al arreglar los outliers de una segunda variable me modifica la primera ya arreglada, pero reescribo el mismo dataframe
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Muchas gracias por tus palabras Diego! Me podrías enviar el código que estás utilizando a rociochavezmx@yahoo.com para ver que es lo que está pasando y poder contestar tu duda, por favor?
@jortigasperu
@jortigasperu Жыл бұрын
hola rocio, y en el caso multivariante como se puede chequear?, gracias
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos Жыл бұрын
Hola! Podrías ir aplicando la detección de outliers en cada variable utilizando un ciclo for o bien aplicar otras técnicas como el clustering. Estoy por crear un video también de detección de outliers utilizando la distancia de Mahalanobis, espero poder subirlo en unas semanas más
@jortigasperu
@jortigasperu Жыл бұрын
@@RocioChavezCienciadeDatos si fuese individual seria con un diagrama de cajas, pero me da curiosidad multivariante.. slds
@helloWorldPlus
@helloWorldPlus 4 жыл бұрын
Hola! porque consideraste solo aquellos por debajo de 1240 y no aquellos menores o iguales de 1205, no debería considerarse en función al percentil 75 según el boxplot? Ahora que se haría en caso no se quiera simplemente eliminar outliers. Yo tengo un dataset sin target pero no puedo discretizar usando árboles Chaid por la falta de target y solo tengo en mente 2 posibilidades que son aplicarle logarítmo o discretizar con los percentiles, se te ocurre algo más? Saludos
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola! Los outliers se consideran cuando stán fuera de los bigotes del boxplot. Si no quieres eliminar los outliers, necesitas utilizar algoritmos que no se vean afectados por éstos para analizar tus datos, dependiendo del tipo de analisis que quieras hacer, deberás investigar cuales algoritmos o se verán afectados por los outliers En cuanto a la pregunta acerca de la discretización, no tengo idea :(
@adventureaf9549
@adventureaf9549 4 жыл бұрын
Hola buena noche, soy estudiante de ingenieria agroecologica , apenas estoy entendiendo el mundo de la estadistica , cuando utilizas tu package "rivers" en mi caso no manejo ese tipo de datos, que podria utilizar? para poder hacer la función de "rios_sin_out"
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola! El archivo acerca de las longitudes de los rios esta en el link que viene en la descripción. Puedes utilizar ese, es de tipo csv
@adventureaf9549
@adventureaf9549 4 жыл бұрын
@@RocioChavezCienciadeDatos disculpa mi ignorancia, puedo usar ese mismo paquete para trabajar con datos de suelos ? Variables físico químicas del suelo? Básicamente es como mi pregunta
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
@@adventureaf9549 rivers solamente contiene la información que te comento, no lo podrias usar para obtener variables fisico quimicas de suelos
@adventureaf9549
@adventureaf9549 4 жыл бұрын
@@RocioChavezCienciadeDatos esa era mi duda, sino que pues me estaba guiando con tu ejemplo y cuando llegué a esa parte pues ahí quedé , entonces tendría que buscar alguna base de datos que contenga esas características del suelo para la zona en la que lo evalúe?
@adventureaf9549
@adventureaf9549 4 жыл бұрын
@@RocioChavezCienciadeDatos lo otro es que estoy haciendo un EDA a mi base de datos ,pero pues quisiera identificar correctamente los outliers
@harpya6707
@harpya6707 4 жыл бұрын
Buenos días Rocio, tengo una base de datos con las siguientes columnas (Lote, Parcela, No de individuo, Peso, Talla), en excel sé cómo identificar los individuos repetidos (varios individuos con un mismo número en la misma parcela) o faltantes (ausencia de uno o varios individuos en la misma parcela), sin embargo en R no he logrado realizar lo mismo, alguna idea?, muchas gracias
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola! Puedes ver el video acerca de los valores duplicados, a ver si te es de ayuda, por favor? kzbin.info/www/bejne/d5zMfWSjeLOlg68&ab_channel=RocioChavezCienciadeDatos
@edwinulisesx
@edwinulisesx 2 жыл бұрын
una pregunta, por que los no outliers serian los menores a 1240?
@pinguino13
@pinguino13 4 жыл бұрын
Hola, como se pueden pasar datos de un excel a R, son alrededor de 6millones de datos
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
Hola Ignacio, necesitarías librerías para big data
@pinguino13
@pinguino13 4 жыл бұрын
@@RocioChavezCienciadeDatos sería pasar este archivo excel a big data y luego a R para analizar?
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
@@pinguino13 tal vez lo puedas leer normalmente en R, pero para hacer los análisis necesitarías librerías como una llamada snow, que te ayuda a realizar los cálculos en paralelo
@pinguino13
@pinguino13 4 жыл бұрын
@@RocioChavezCienciadeDatos muchas gracias, investigaré al respecto, una consulta, este analisis de eliminar los outliers se puede hacer independiente de la distribucion que presenten los datos? Me gustaría escribirte un mail
@RocioChavezCienciadeDatos
@RocioChavezCienciadeDatos 4 жыл бұрын
@@pinguino13 adelante. Mi correo es rociochavezmx@yahoo.com
Creación de Tablas Interactivas con Lenguaje R
4:03
Rocio Chavez Ciencia de Datos
Рет қаралды 1,5 М.
Preprocesamiento de Datos en R: Valores perdidos y Filas duplicadas
16:54
Rocio Chavez Ciencia de Datos
Рет қаралды 8 М.
The Best Band 😅 #toshleh #viralshort
00:11
Toshleh
Рет қаралды 22 МЛН
Chain Game Strong ⛓️
00:21
Anwar Jibawi
Рет қаралды 41 МЛН
Une nouvelle voiture pour Noël 🥹
00:28
Nicocapone
Рет қаралды 9 МЛН
Pre Procesamiento de Datos en Python: Detección de Outliers
13:47
Rocio Chavez Ciencia de Datos
Рет қаралды 18 М.
Pruebas para valores atípicos univariados en R
10:51
JR Estadísticos
Рет қаралды 478
Querying 100 Billion Rows using SQL, 7 TB in a single table
9:07
Arpit Agrawal (Elastiq.AI)
Рет қаралды 59 М.
Stata - How to winsorize your data
6:15
Steffen's Classroom
Рет қаралды 20 М.
Análisis Exploratorio de Datos con R
25:12
BETAMETRICA
Рет қаралды 11 М.
Algoritmo Apriori en R | Identificando patrones de comportamiento
30:50
Rocio Chavez Ciencia de Datos
Рет қаралды 11 М.
Cómo manipular datos en R con dplyr y RStudio  [ Tidyverse ]
8:37
Rafa Gonzalez Gouveia
Рет қаралды 45 М.
Preprocesamiento de Datos en R: Escalado de Valores
11:28
Rocio Chavez Ciencia de Datos
Рет қаралды 6 М.
Análisis Factorial Confirmatorio (AFC) en R y RStudio. [Chupito de R]
20:09
Pablo Vallejo Medina
Рет қаралды 19 М.
The Best Band 😅 #toshleh #viralshort
00:11
Toshleh
Рет қаралды 22 МЛН