[K means] Análisis de Clúster en R y Rstudio. [Chupitos de R]

Рет қаралды 60,238

Күн бұрын

#clúster #kmedias #kmeans
¡¡¡ESTOY INTERPRETANDO AL REVES LA MATRIZ DE DISTANCIA, EL ROJO SERÍA MÁS DISTANCIA (DISIMILITUD), Y NO RELACIÓN, COMO DIGO YO EN EL MIN 3.50.!!!
Si te gusta mi contenido y quieres, puedes pagarme un café en: ko-fi.com/chup... así no me dormiré mientras hago los chupitos. Le daré a Alejandro su medio café.
En este chupito de R os explicaré como utilizar este algoritmo para toma de decisiones llamado K medias. Se trata de una técnica de análisis por conglomerado que permite tomar decisiones sobre cuántos grupos se divide nuestra muestra. K-medias es súper fácil de hacer y aquí os muestro cómo se hace en Rstudio de una forma sencilla. Cómo hacer clúster en R. Rstudio es un programa ideal para hacer estos análisis estadísticos.
Toda la sintaxis:
github.com/pab...

Пікірлер: 336

@alejandrogutierrezvalverde3078 3 жыл бұрын

Me gusto esta frase: "El R-studio te hace cosas mas complejas, sino nos quedaríamos con programas sencillitos como el SPSS"

@PabloVallejoMedina 3 жыл бұрын

Sí, estoy de acuerdo contigo y conmigo ;)

@stev0786 9 ай бұрын

Muchas gracias por esta explicación. Estoy haciendo el servico con físicos químicos y me pedían hacer un buen código para el análisis multivariable e hice unos con PCA, pero tiempo después conocí el análisis de cluster y no lo lograba entender. Con este video que hiciste, me acabas de aclarar muchas dudas. Ojalá vuelvas a subir más videos.

@LACARArock 3 жыл бұрын

Llevo 2 años aprendiendo R y el logaritmo de KZbin no se había dado cuenta de lo bien que me habrías venido... jaja Buen trabajo!

@PabloVallejoMedina 3 жыл бұрын

jajaj, hace dos años el canal no existía ;). Así que no está tan mal.

@alboradadelgracioso1 Жыл бұрын

Gracias por esta explicación, está sencilla y útil. Saludos desde Cali, Colombia

@leonardosotoalvarez1156 9 ай бұрын

Hola Pablo, muy buen video, me encanto!!. Muchas Gracias!!. Solo tengo una duda, una ves definidos los clúster, como puedo ir asignado clúster a posteriores observaciones entrando sin tener que realizar todo el proceso de clusterización nuevamente.

@luisatorres7193 4 жыл бұрын

Me ha encantado! Lo explicas muy muy bien. Cuando puedas uno de ACP😊

@PabloVallejoMedina 4 жыл бұрын

Hola, no soy muy fan yo del ACP, pero ya sois varios los que lo habéis pedido. De todas formas hay uno que es de análisis factorial exploratorio... kzbin.info/www/bejne/jGGugImtpLpsnc0

@ayoubben109 Жыл бұрын

Buenas, solo comentarte que enhorabuena por tu capacidad explicativa. Buscaba algún video para conocer los fundamentos del clustering en R, y saber para qué se usa exactamente y las funciones disponibles, y la verdad que en 20 min me he enterado de todo sin tener que parar el video (algo complicado de lograr cuando se tratan tecnicismos). Así que nada, gracias.

@PabloVallejoMedina Жыл бұрын

Un placer, no entro mucho en las matemáticas, pero me alegra que te sirviera de ayuda.

@PabloSCHROETER 11 ай бұрын

una locura! excelente y muy didáctico el video, gracias!

@adancastro2220 Жыл бұрын

Gracias Hermano! excelente explicacion. Saludos de Ultramar 👍

@tyrahstipe 8 ай бұрын

Muy buena explicación, gracias. Entiendo que gather es lo que ahora es pivot_longer?

@PhDPA 3 жыл бұрын

Excelente Pablo muchas gracias por el video estoy estudiante un master en Data Science y me sirvió mucho tu video!!

@PabloVallejoMedina 3 жыл бұрын

Súper, me alegra ;)

@guadalupevalenzuela2044 4 жыл бұрын

Súper claro, me ha servido mucho!!! Muy buena explicación. Ojalá puedas hacer uno del algoritmo de Kamila :)

@PabloVallejoMedina 4 жыл бұрын

Hola, muchas gracias. No creo que me meta con cami. Nunca lo he empleado y no suelo hacer chupitos de técnicas que conozco poco ;)

@MedinaMedina. 17 күн бұрын

Perdóname, pero es solo curiosidad. La gráfica en que muestras la distribución de personajes, ¿son gráficas en componentes principales, específicamente la llamada gráfica de individuos?, lo digo por las cantidad de varianza explicada (presumo) que aparece en las dos primeras dimensiones que (también presumo) por defecto muestra.

@JorgeRamirez-hp5fl 2 жыл бұрын

Señor le agradezco..... me ayudo mucho

@jairovx 3 жыл бұрын

Increíble video! Había aprendido a hacer k-mean en python y quería saber cómo se hace en R, tu video es el mejor de todos los que he visto!! Genio!! Gracias por compartir!!

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias, Estos comentarios animan un montón!!

@pedrolopezdelcastillo3069 4 жыл бұрын

Muchas gracias, bien explicado, bien comprendido, saludos sigue así

@PabloVallejoMedina 4 жыл бұрын

Muchas gracias ;)

@deruan7625 2 жыл бұрын

Creo que por fin he entendido el Cluster Analysis, muy bien explicado!!

@PabloVallejoMedina 2 жыл бұрын

Gracias, no era la intención jijijij.

@damianbahamondes7273 3 жыл бұрын

Excelente video!!, aprendí bastante, saludos desde Chile. Suscriptor 5600! a seguir dándole caña

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias !!!

@kelvindossantosalves4262 Жыл бұрын

Hola Pablo, primero queria felicitarte por tu trabajo, es un trabajo muy bonito. me gustaría hacerte una pregunta. Yo estudio mezclas de partículas y me gustaría hacerte una pregunta. Yo tengo una muestra de partículas llamada A, donde he identificados los clusters 1, 2 y 3. Por otro lado tengo una muestra llamada B, en este caso B está formada por partículas similares a de la muestra A. Me gustaría saber si puedo aplicar las muestra B a mi modelo de cluster de A para saber cuantas muestras de B se encajan en alguno de los cluster observados en A. un saludo

@albertogallegosrivera5934 3 жыл бұрын

Muchas gracias, en verdad este video me ayudo mucho para poder acomodar de mejor forma la base y poder trabajar con el análisis de cluster

@PabloVallejoMedina 3 жыл бұрын

Genial, me alegra ;)

@jessicalopezcasas2290 Жыл бұрын

Excelente explicación...una suscriptora más

@PabloVallejoMedina Жыл бұрын

Muchas gracias!!!

@AntonellaGiglioDigital Жыл бұрын

Muy clara tu explicación, estoy aprendiendo R para clusterizar. Tengo una consulta, se puede descargar la nueva tabla con los datos de cluster que se crean? Mi intención es poder individualizar cada usuario respecto al algoritmo que pertenece para después poder realizar acciones segmentadas. En caso de qué se pueda, cómo podría obtener tal base?

@edwarurquizazapata3237 3 жыл бұрын

Excelente, muy claro.

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias ;)

@andres59565 3 жыл бұрын

Gracias man! me ha sido muy útil tu video tutorial. Un saludo desde Argentina.

@PabloVallejoMedina 3 жыл бұрын

Genial, me alegra mucho. Creo que el canal se va haciendo conocido últimamente por Argentina ;)

@lorenzorivas5788 Жыл бұрын

Es genial como todos los videos. Una pregunta: una vez que he generado los clusters a partir de mi data frame, puedo construir un modelo de regresión a partir de ellos? Muchas gracias

@PabloVallejoMedina Жыл бұрын

Sí, claro puedes hacer un modelo por cluster, o emplear la variable como predictora o dependiente (pero adaptado el modelo a variables politómicas).

@lorenzorivas5788 Жыл бұрын

@@PabloVallejoMedina perfecto muchas gracias y enhorabuena por los videos

@GaboMoya 9 ай бұрын

Existe alguna forma de utilizar corplot para poder ver como se correlacionan las variables con cada cluster?

@ruloEcuador 2 жыл бұрын

Excelente video, gracias por compartir tu conocimiento

@PabloVallejoMedina 2 жыл бұрын

Un placer ;)

@constanzavargas805 2 жыл бұрын

Muy buen vídeo!! Muchas gracias por compartir y explicar el proceso :)

@PabloVallejoMedina 2 жыл бұрын

Muchas gracias!!!

@navarromendezalejandroguad8962 Жыл бұрын

Muchas gracias me fue de mucha utilidad saludos desde México 😁

@PabloVallejoMedina Жыл бұрын

Muchas gracias!!

@geolomera 2 жыл бұрын

Muy bien explicado. Muchas gracias!

@PabloVallejoMedina 2 жыл бұрын

Muchas gracias a ti por el comentario, un saludo ;)

@MS-BeatrizBosques 2 жыл бұрын

Super bien explicado! Mil gracias

@PabloVallejoMedina 2 жыл бұрын

Muchas gracias!!

@marisagalarz 3 жыл бұрын

Uno de los mejores vídeos respecto a K-Medias

@PabloVallejoMedina 3 жыл бұрын

muchas gracias!!

@marisagalarz 3 жыл бұрын

@@PabloVallejoMedina Tengo la siguiente consulta: He tratado de simular el dataset de USArrests para aplicar lo mismo a otros datos. Sin embargo, no sé como manejar la columna de Estado. Creé un csv con 5 columnas, la primera corresponde al estado. Sin embargo, al leer el csv se agrega el rowname con un número de fila y no con el nombre del estado. Es decir, el df generado directamente desde el archivo USArrests es distinto al csv que he creado. No sé como manejar la columna de estado para que sea considerada como rowname. Muchas gracias por tu tiempo y la gran ayuda.

@PabloVallejoMedina 3 жыл бұрын

@@marisagalarz Hola María, podrías utilizar la función Rowtocolumname. En el video de clustar con la base de marvel muestro como se hace.

@marisagalarz 3 жыл бұрын

@@PabloVallejoMedina Hola Pablo. Agradezco tu gran ayuda. Tienes los mejores vídeos.

@PabloVallejoMedina 3 жыл бұрын

@@marisagalarz Muchas gracias!!

@lucasconte1324 3 жыл бұрын

Excelente, me clarifico mucho el uso de clusters.

@PabloVallejoMedina 3 жыл бұрын

Genial, me alegra ;)

@melinacardenas9302 Ай бұрын

Hola Pablo, buenos dias. Me encanta la explicación, solo que cuando yo corro mi programa a la hora de que muestra mis clusters no me sale a que corresponde y a las etiquetas que se ven

@PabloVallejoMedina Ай бұрын

@@melinacardenas9302 creo que puedes obtener la respuesta en el vídeo de superhéroes

@luiscardozo4810 3 жыл бұрын

Excelente, gracias por compartir la sintaxis

@PabloVallejoMedina 3 жыл бұрын

Un placer.

@monsesantillan3012 9 ай бұрын

Muy buen video, se puede hacer que aparezca como labels otra columna? Y adicionalmente, puede aparecer en el gráfico algún otro dato, como las medias o algo, encima de cada grupo? Gracias por tu respuesta, saludos!

@PabloVallejoMedina 9 ай бұрын

Hola Monse, sí todo se puede. Lo de las etiquetas lo tienes en el video de cluster y super héroes. Y lo de las medias, lo puedes hacer programando en ggplot, o hacerlo una vez exportado. Lo puedes ver en mi video de anotaciones fácil en ggplot. Un saludo!!

@monsesantillan3012 9 ай бұрын

Muchas gracias! Saludos

@josejaramillo8596 3 жыл бұрын

Gracias por compartir su conocimiento, excelente video.

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias ;)

@diegodiazmilanes3732 3 жыл бұрын

Muchas gracias por tu video. Ha sido muy útil y didáctico (como todo tu canal). ¿Podrías hacer un video o dar alguna referencia (artículo o pagina web sobre análisis cluster bietapico en R)? Específicamente que pueda integrar variables categóricas como lo hace el algoritmo de SPSS.

@PabloVallejoMedina 3 жыл бұрын

Hola, la verdad no tengo esos conocimientos. En esta ocasión no puedo ayudar ;)

@diegodiazmilanes3732 3 жыл бұрын

@@PabloVallejoMedina Mil gracias por responder tan rápido. Igualmente, gracias por tu labor y espero que tu canal no deje de crecer.

@josealejandrofausac 4 жыл бұрын

Excelente!!! Muchas gracias por compartir. Me ha sido de gran utilidad

@PabloVallejoMedina 4 жыл бұрын

Me alegra que sea útil;)

@juliogomez5224 3 жыл бұрын

Hola Pablo. Felicidades por tu excelente trabajo con estos vídeos. Tengo una consulta, podrías explicarme que es el (nstart = 25), no lo entiendo muy bien. Además, que me recomiendas al trabajar con 1125 observaciones diferentes, al hacer el cluster, uno se entiende perfectamente (pocas palabras), pero el segundo no se observa nada, debido al gran volumen de palabras que contiene. Saludos!

@PabloVallejoMedina 3 жыл бұрын

El K-means es un algoritmo supervisado. Nosotros le tenemos que ir indicando ciertos parámetros. El te va a escoger x puntos, uno por cada cluster que le hayamos dicho, y va a por ejemplo incluir el vecino más cercano en ese cluster. Esos x puntos se eligen al azar. con el nstart le decimos cuantas iteraciones va a hacer. En función de otros parámetros te elegirá los clúster que mejor optimizados estén. Respecto a lo segundo a mi tmb me pasa en mi otro video de kmeans (marvel). hay una opción que te saca flechitas y te dice los nombres más claramente, pero sinceramente no ayuda mucho. Eso es lo único que conozco. De todas formas no siempre se puede sacar un listado si hicera falta.

@Sefer8 Жыл бұрын

Me gusto mucho el video y agradezco que enseñes tan bien Pablo. Pero tengo una duda, cuando generas los clúster que significan los porcentajes al lado de cada dimensión ? Saludos

@PabloVallejoMedina Жыл бұрын

Hola, ¿en que minuto sale?

@Sefer8 Жыл бұрын

En el 12:27 aparece un porcentaje en Dim1 y Dim2 eso es la variabilidad entre qué cosas ? Saludos Pablo

@SamuelPLeon 4 жыл бұрын

Muchas gracias por el vídeo Pablo. Una pregunta, he usado el análisis de clúster para hacer perfiles de las puntuaciones de una escala y así usarlos como variables categóricas moduladores en una regresión. El tema es que nunca he hecho este tipo de análisis y no se bien como reportarlo en un paper en estilo apa. Sabrías algún documento, manual, o incluso algún paper tuyo que usar de guía? Gracias

@PabloVallejoMedina 4 жыл бұрын

Hola yo nunca he pasado de cluster a regresión. Si a Anova. Si quieres échale un ojo a este paper que hacen algo parecido: Colombian people’s willingness to forgive offenses against women perpetrated during the armed conflict... www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-05342019000300226

@SamuelPLeon 4 жыл бұрын

@@PabloVallejoMedina Gracias Pablo. Si lo piensas, Anova y GLM vienen a ser lo mismo. El año pasado, un estudio implementado en r demostraba que (casi) todos los análisis al final son Linear models. Te dejo el link por si lo desconocías: lindeloev.github.io/tests-as-linear/

@pastorsoto1298 3 жыл бұрын

Excelente video. Siempre que trabjas con datos lo estandarizas o solo es por este caso en particular? Saludos!

@PabloVallejoMedina 3 жыл бұрын

Hola pastor. Cuando la escala de medida difiere entre variables se recomienda estandarizar. Si todas van de 0 a 100 por ejemplo no seria tan necesario. Pero aun mejor sería mirar si las varianzas sean iguales o distintas... si es el último caso toca estandarizar. 😄

@pastorsoto1298 3 жыл бұрын

@@PabloVallejoMedina Estandarizar es apropiado en todos los casos? o existen situaciones en las que no es apropiado y puede dar resultados erroneos? Para hacer modelos predictivos (de regresion) estandarizarias siempre? Gracias por tu respuesta!

@PabloVallejoMedina 3 жыл бұрын

@@pastorsoto1298 Hola, es decir, si tus variables tienen varianzas muy desiguales entre ellas. O directamente las unidades de medida son diferentes (por ejemplo millones de dólares en petróleo y PIB) Deberías estandarizarla. En el caso que fueran las mimas unidades (o tuvieran varianzas similares) como ratio de covid por países, entonces no sería necesario. No lo hago como norma general, sino en función de los datos.

@miguelfranciscogalvancabel6402 4 жыл бұрын

Muchas gracias por este video, Pablo. Quedó todo muy claro. Me surge una consulta a partir de este tema, quiero realizar un análisis de clúster con dos o tres variables categóricas (Nivel socioeconómico y proyección de estudios). ¿Qué tipo de análisis de clúster recomendarías en estos casos? Saludos, gracias por el apoyo!!

@PabloVallejoMedina 4 жыл бұрын

Hola, depende un poco de tus datos, pero puedes utilizar RObust Clustering using linKs, o si son mixtos PAM te puede servir, tengo un chupito de ese también kzbin.info/www/bejne/sKrMqZaalLx-i6s Pero vaya , hay diferentes alternativas.

@wildonrp 3 жыл бұрын

Excelente, felicitaciones y gracias

@PabloVallejoMedina 3 жыл бұрын

Un placer ;)

@maribeldelgado4133 3 жыл бұрын

Saludos desde México!! Que gran video!!!

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias!!!

@j0oonaa 4 жыл бұрын

Excelente video, muy claro toda la explicación. Gracias!

@PabloVallejoMedina 4 жыл бұрын

Un placer ;)

@francoreveruzzi5490 4 жыл бұрын

Muy buenas Pablo!! Genial el video!!! no sabes como me estas salvando un trabajo XD pero me salio un pequeño error que me hace ruido "Error in NbClust(df, diss = m.distancia, distance = NULL, min.nc = 0, : The TSS matrix is indefinite. There must be too many missing values. The index cannot be calculated." y nada, si tienes idea o te ha pasado me gustaría saber como sacármelo de encima. Saludos.

@PabloVallejoMedina 4 жыл бұрын

Supongo que tendrás que hacer una imputación de casos perdidos ¿no?

@dabonillao 4 жыл бұрын

@@PabloVallejoMedina Hola Pablo, en primer lugar muchas gracias por tus aportes. Tuve el mismo error que Franco y luego de descartar que fuera por casos perdidos tuve que correrlo en loop basándome en una respuesta de alguna persona en un foro. sum(is.na(df)) [1] 0 #Aún así no me aceptó varios algoritmos y al final solo usé 16. Cuando intenté incluir algunos manualmente me saliá el mismo error de TSS matrix... lista.methods = c("kl", "ch", "hartigan","mcclain", "gamma", "gplus", "tau", "dunn", "sdindex", "sdbw", "cindex", "silhouette", "ball","ptbiserial", "gap","frey") lista.distance = c("metodo","euclidean", "maximum", "manhattan", "canberra") tabla = as.data.frame(matrix(ncol = length(lista.distance), nrow = length(lista.methods))) names(tabla) = lista.distance for (j in 2:length(lista.distance)){ for(i in 1:length(lista.methods)){ nb = NbClust(df, distance = lista.distance[j], min.nc = 2, max.nc = 10, method = "complete", index =lista.methods[i]) tabla[i,j] = nb$Best.nc[1] tabla[i,1] = lista.methods[i] }} tabla metodo euclidean maximum manhattan canberra 1 kl 4 10 2 4 2 ch 3 4 2 2 3 hartigan 10 10 4 6 4 mcclain 2 2 2 2 5 gamma 2 2 10 10 6 gplus 2 2 10 2 7 tau 3 10 10 10 8 dunn 2 2 10 2 9 sdindex 9 3 7 2 10 sdbw 9 8 10 10 11 cindex 10 8 2 10 12 silhouette 2 2 2 10 13 ball 3 3 3 3 14 ptbiserial 3 5 10 10 15 gap 2 2 2 2 16 frey 1 4 2 1 ¿A qué crees que se deba que los otros 14 den error? Gracias!

@PabloVallejoMedina 4 жыл бұрын

@@dabonillao buaa genial. muy interesante. Se me ocurre que tengas eigenvalores negativos y que por tanto algunos indicadores no iteren. Creo con los datos que tienes que 2, 3 o 4 van a ser los mejores. Pero si los quieres todos asegurate que tus variables estan normalizadas y que ninguna se vaya negativa. Quizá eso podría darte el error. Siempre puedes probar con la matriz traspuesta... t(tusdatos). Me cuentas a ver si algo funciona ;)

@dabonillao 4 жыл бұрын

@@PabloVallejoMedina Muchas gracias! Estamos en contacto.

@BeaMorgado 3 жыл бұрын

Ahaha gracias, creo que te amo. Fuiste de gran ayuda :)

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias!!!

@FFFD-1984 2 жыл бұрын

Muchas gracias, excelente

@PabloVallejoMedina 2 жыл бұрын

Un placer ;)

@gnacho98 3 жыл бұрын

excelente, muy didactico, te veo desde argentina!

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias!!!. Saludos desde Colombia.

@cristianpalacios8773 3 жыл бұрын

Muy bueno Pablo, fue de gran ayuda.

@PabloVallejoMedina 3 жыл бұрын

Un placer ;)

@andrealara4490 3 жыл бұрын

Cuándo subes uno de PLS? Excelente explicación. Gracias

@PabloVallejoMedina 3 жыл бұрын

Hola muchas gracias, a ver si el covid me permite volver a grabar pronto. ;)

@nachoeigu 3 жыл бұрын

Una consulta si lo que queremos calcular es un análisis de agrupaciones por estados más seguros e inseguros no sería recomendable omitir la variable población ya que no es relevante? Saludos! Gran video

@PabloVallejoMedina 3 жыл бұрын

Hola Nacho. Es una muy buena pregunta. Yo incluí la variable población por que quería que tuviera en cuenta en el clúster. Algo así como ciudades pequeñas seguras, grandes seguras, pequeñas peligrosas etc etc. Pero entiendo que estás planteando una nueva situación. Así que te pregunto yo a ti. Qué prefieres vivir en una ciudad de 1000 habitantes con 100 asesinatos al año o en una de 1.000.000 con 1.000 asesinatos anuales?

@nachoeigu 3 жыл бұрын

@@PabloVallejoMedina Ahhh, ahora sí entiendo su elección. En realidad, respecto a la pregunta, me sería indistinto xq la probabilidad de sufrirlo sería la misma tanto para una ciudad y otra xq la tasa sería la misma.

@PabloVallejoMedina 3 жыл бұрын

@@nachoeigu No para nada. En una ciudad de 1.000 habitantes con 100 muertes al año hay un 10% de homicidios. una de 1.000.000 con 1000 del 0,1 ;)

@miguelfranciscogalvancabel6402 3 жыл бұрын

Que tal Pablo, espero que estés bien. Me surge una duda básica. En las gráficas donde se agrupan los clusteres obtenidos, se muestran cada caso (Estados) como un punto dentro de un plano, eje x y eje y. Mi duda es cómo es que cada estado toma una posición en el plano si las variables que se están considerando para hacer el análisis de cluster son más de dos. La posición dentro del plano de cada caso, es muy importante para el análisis, mi duda es que si estamos creando clústeres a partir de mas de dos variables, como determinamos la ubicación del caso dentro del plano. Saludos cordiales

@PabloVallejoMedina 3 жыл бұрын

Por qué los planos no son varianzas o variables. SOn distancias... distancias euclideas.... aquí te lo explican mejor que yo ;) kzbin.info/www/bejne/apOYlWajqrWEo6M

@miguelfranciscogalvancabel6402 3 жыл бұрын

@@PabloVallejoMedina Muchas gracias, Pablo. Me ha servido mucho. Ahora mismo estoy haciendo un ejemplo y quiero estandarizar las variables de un df, pero no quiero estandarizar todas sino solo algunas. cómo puedo seleccionar las variables que quiero estandarizar? Estoy utilizando esta función, pero me estadariza todas las variables. df

@manueljleon2181 2 жыл бұрын

Excelente Video mi pana, saludos!!

@PabloVallejoMedina 2 жыл бұрын

Saludos tío!

@davidsosolreyes1560 Жыл бұрын

Hola, excelente video. Tengo una duda, realice el procedimiento pero con mis datos, al sacar el método de distancias, el cluster y dendograma, no me aparece el nombre de mis datos sino el número de la casilla en que se encuentra. Por ejemplo, supongamos que no aparecen los nombres de los estados de tu dataframe sino el número de estados que son. Mi pregunta es ¿cómo puedo cambiar para que aparezcan?...Saludos desde México

@PabloVallejoMedina Жыл бұрын

Hola, eso lo soluciono en el video de Cluster Marvel vs DC ;)

@jorgeleonardosolisbanguera7003 2 жыл бұрын

Excelente vídeo. Entendí por fin este tema

@mariagranitto2789 3 жыл бұрын

Muchas gracias Pablo por tu aporte! te hago una consulta, en mi caso tengo mi matriz cargada como csv en R. Cada columna es un sitio de muestreo y cada fila es una sp. Quiero hacer un cluster para ver que sitios son mas similares entre si en relacion a la comunidad de spp de algas. los datos que tengo son abundancias pero hay muchas celdas vacias (con cero) porque no todas las sp fueron encontradas en todos los sitios. Este analisis de cluster que vos mostraste es adecuado para estos datos? Saludos y muchas gracias,

@PabloVallejoMedina 3 жыл бұрын

Hola, sí creo que no habría problema. Prueba a ver cómo te va ;)

@luisangelbarrera-guzman7463 4 жыл бұрын

Hola Pablo que buen vídeo has hecho. A partir del minuto 11:18 sale dibujado el primer gráfico de clusters, en el eje x dice "Dim1 62%" y en el eje y "Dim2 24.7%". Me podrías decir de favor que significan esos porcentajes

@PabloVallejoMedina 4 жыл бұрын

Hola, es el % de variabilidad explicada por cada dimensión. Me alegro que te guste.

@luisangelbarrera-guzman7463 4 жыл бұрын

@@PabloVallejoMedina Muchas gracias Pablo, no sé si sea parecido al de análisis de componentes principales. Saludos desde México.

@samirricardoneme-chaves9086 4 жыл бұрын

Tremendo chupito, muy ilustrativo.... Extrañe el ostiaaaaa jejejejeje

@PabloVallejoMedina 4 жыл бұрын

El canal va cambiando un poco ;)

@elqvixote1861 3 жыл бұрын

Que buen canal. R es espectacular.

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias!!!

@sebastianbustamantemanriqu7386 4 жыл бұрын

Hola, excelente!!! Cómo se haría para una matriz de presencia ausencia con Jaccard?? Dónde tendría que incluir este método de Jaccard??

@PabloVallejoMedina 4 жыл бұрын

Umhh muy buena pregunta. Creo que sería algo como... Jmatrix

@marceloaguirre3709 2 жыл бұрын

Hola ! muy buenos tus videos. Ya me suscribí. Cuando quiero utilizar la función fviz_nbclust(resnumclust) me sale el siguiente error = Error in if (class(best_nc) == "numeric") print(best_nc) else if (class(best_nc) == : the condition has length > 1 Como podría solucionarlo ? Saludos

@PabloVallejoMedina 2 жыл бұрын

Parece que es un error de la función, en algunos casos extraños da ese error. Aquí tienes una posible solución, pero no va a ser fácil. stackoverflow.com/questions/72075707/rstudio-error-with-the-fviz-nbclust-function

@WITHHARDMAN Жыл бұрын

Una pregunta, para bases de satos de 1500 filas y 22 columnas, como puedes hacerlo. Por que tengo agrupaciones en columnas en variables en binarias, pero no se puede representar bien puesto que hay 1500 filas ....y no se ni por donde cogerlo, los ejes ni se ven, osea en los ejes de mi base de datos no se aprecian puesto que son los clientes, por que estamos estudiando la base de un banco de Portugal.

@PabloVallejoMedina Жыл бұрын

Hola, no es una base muy grande por lo que no debería haber un gran problema. Pero, para empezar, yo nunca elegiría K-means para hacer un cluster de variables dicotómicas. No sé qué variables son, ni cuál es tu objetivo, pero me replantearía si este análisis cumple con lo necesario. Saludos!!

@adventureaf9549 2 жыл бұрын

Holaaa , estoy ingresando al mundo de la estadística y tambien en R; me han servido mucho tus videos, queria preguntar si tengo una base de datos con valores de 0 y 1 (binarias) tambien puedo aplicar este tipo de analisis, o sea claramente debo escalarlos ... pero podría ?

@PabloVallejoMedina 2 жыл бұрын

Hola, pues en teoría no. Pero siempre depende un poco de si los resultados tienen sentido. Yo elegiría un cluster más robusto para estos casos. K-medioids¿+??

@adventureaf9549 2 жыл бұрын

@@PabloVallejoMedina Pues estoy pensando en hacerlo por el método de Ward y distancia Gower , ya que tengo variables binarias y cuantitativas . y quisiera preguntarte si conoces la función para incluir la distancia Gower? porque estuve intentando con " daisy" y no me da .

@PabloVallejoMedina 2 жыл бұрын

@@adventureaf9549 Hola, ni idea es algo muy específico ya.

@lorenzorivas5788 2 жыл бұрын

El video es excelente y didáctico

@javieralda2391 4 жыл бұрын

Buenas, Pablo, excelente vídeo, pero tengo un pequeño problema al implementarlo con mi conjunto de datos: En primer lugar, por algún motivo que desconozco, no me salen los strings como indicadores en los gráficos (por ejemplo, en tu fviz_dist salen los nombres de los estados, sin embargo a mí me sale otra variable). Y en segundo lugar, cuando intento hacer el resnumclust me sale el siguiente error: Error in t(jeu) %*% jeu : requires numeric/complex matrix/vector arguments Un saludo y gracias de antemano, like y suscripción.

@PabloVallejoMedina 4 жыл бұрын

lo primero lo soluciones con esto: dfitems

@otrogameraficionado Жыл бұрын

@@PabloVallejoMedina gracias, estaba buscando esto por todos lados, me salvaste el día

@dhev1987 4 жыл бұрын

Estimado Pablo, gracias por tus videos y generosidad intelectual. Te quería hacer una consulta, cada vez que quiero hacer un análsis cluster no me permite desarrollar el código con las etiquetas de la base, siempre debo quitar la columna y luego en los gráfico las etiquetas salen con los id de cada línea. ¿Tal vez tu sabes cómo solucionar eso?

@PabloVallejoMedina 4 жыл бұрын

Hola David, ya te contesté en Facebook. Pero lo voy a hacer también por aquí. Creo que la función dfitems

@GuilleADC 3 жыл бұрын

Excelente video ! Gracias Pablo.

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias!!!

@yeisonsantamaria5298 3 жыл бұрын

Hola Pablo, excelente video, me quedó todo mucho más claro. He tenido un inconveniente, cuando voy a graficar los clústers con la función fviz_clusterm "Error in loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]) : namespace ‘vctrs’ 0.2.4 is already loaded, but >= 0.3.0 is required". Podrías orientarme para saber que estoy haciendo mal?. Muchas gracias

@PabloVallejoMedina 3 жыл бұрын

Creo que tienes desactualizada alguna dependencia. Más concretamente vctrs .Actualiza R si lo tienes en la versión antigua. POr que ya empiezan a molestar muchas dependencias con el 3.6

@yeisonsantamaria5298 3 жыл бұрын

@@PabloVallejoMedina Ya hice la actualización a 4.0.3 y me sigue saliendo el mismo error. Igual muchas gracias por tu respuesta

@PabloVallejoMedina 3 жыл бұрын

@@yeisonsantamaria5298 actualiza el paquete de la dependencia que te pide.

@elizabethvillavicenciobill6124 4 жыл бұрын

Excelente videos, gracias por el aporte!

@PabloVallejoMedina 4 жыл бұрын

Muchas gracias ;)

@danidvo 2 жыл бұрын

Gran explicación!. Pero no me quedó claro cuando dices que es clusterizable. Los cuadrados rojos indican menor distancia o mayor distancia euclídea. Entiendo que a menor distancia euclídea, mayor relación hay entre las variables. Gracias!

@PabloVallejoMedina 2 жыл бұрын

Hola, sí es normal que no lo entiendas porque lo explico mal. Lo tengo aclarado en los comentarios. lo interpreto como una matriz de correlaciones, pero es una matriz de distancia ;).

@jaasjaas9039 2 жыл бұрын

pablo! tengo una super duda que data frame se pone en el codigo de NbClust() ? el data frame con los datos estandarizados o no estandarizados? ya que no se si colocar en esa funcion el data frame con los datos sin ser estandarizados, porque como en esa funcion se indica que la distancia es euclidea eso no haria que ese data frame que no esta estandarizado se estandarice?

@PabloVallejoMedina 2 жыл бұрын

Hola, el que quieres clustear. Si es normalizado o no depende de los datos.

@haroldstickareniz2818 14 күн бұрын

Holaaaa! Este analisis puede ser replicable en series de tiempo?

@PabloVallejoMedina 14 күн бұрын

Suena interesante desde luego. No sé el objetivo, pero a priori no veo problemas.

@ryvysaint34 3 жыл бұрын

Muy buena explicación. En el ejercicio que yo tengo los países está como un atributo pero al momento de hacer kmeans tengo que eliminar esa columna y al momento de graficar no sé cómo poner nuevamente los nombres de los países y no me salgan números por los nombres.

@PabloVallejoMedina 3 жыл бұрын

Hola, puedes crear una variable normal con las etiquetas que desees y luego pasarla a rownames así: dfitems

@ryvysaint34 3 жыл бұрын

@@PabloVallejoMedina gracias lo voy a intentar

@pereznebra 3 жыл бұрын

Estimado Pablo, queria preguntar una cosa a respecto de los clusters. He visto que usted a partir del minuto 11 más o menos explica y incluye una "palette" de colores. Lo que todavía no logré hacer es tener los clusters 1, 2 , 3 y 4 de colores standard. A ver si me explico: Yo quería hacer comparaciones entre clusters con variables diferentes, así que el cluster más alto tendria un color y el más bajo de otro. Resulta que el R decide los colores y todavía no he visto como. Qué hice, llevé al ggplot2 y lo hice ahí, pero quería saber si hay como hacerlo directamente. Gracias.

@PabloVallejoMedina 3 жыл бұрын

Hola Amalía no se con que función pero los colores los puedes personalizar. De hecho tengo un chupito reciente de paletas de colores donde explico cómo.

@josejaviermarticamarasa5744 3 жыл бұрын

Hola Pablo. En este Dataset, vemos los nombres de los estados como filas. Como agrupamos si no tenemos esta informacion en las filas?

@josejaviermarticamarasa5744 3 жыл бұрын

Por ejemplo, este dataset . www.kaggle.com/ronitf/heart-disease-uci

@PabloVallejoMedina 3 жыл бұрын

@@josejaviermarticamarasa5744 Creo que algo así te servirá: Creo que la función dfitems

@josejaviermarticamarasa5744 3 жыл бұрын

@@PabloVallejoMedina Le añades un id a cada fila?? Interesante!!!

4 жыл бұрын

La intro del mango hizo mucha falta! Muy buen video

@PabloVallejoMedina 4 жыл бұрын

Solo tenía un platano y dos naranjas. No quería hacer un cluster con eso ;)

4 жыл бұрын

@@PabloVallejoMedina ja muy bien!

@rham1978 3 жыл бұрын

Hola Pablo, muy buen video, tengo una consulta como puedo obtener la distancia entre los centroides que entrega kmeans y los puntos (en este caso las ciudades)?

@PabloVallejoMedina 3 жыл бұрын

Hola aquí tienes una forma de hacerlo en R, pero te toca crear la matriz inicial "manual". Voy a ver si encuentro otra manera.

@rham1978 3 жыл бұрын

@@PabloVallejoMedina gracias Pablo.

@PabloVallejoMedina 3 жыл бұрын

Mucho mejor este material: www.datanovia.com/en/wp-content/uploads/dn-tutorials/book-preview/clustering_en_preview.pdf

@PabloVallejoMedina 3 жыл бұрын

@@rham1978 Mucho mejor este material: www.datanovia.com/en/wp-content/uploads/dn-tutorials/book-preview/clustering_en_preview.pdf

@rham1978 3 жыл бұрын

@@PabloVallejoMedina te pasaste.

@domenech1997 3 жыл бұрын

Un video genial, me ha ayudado muchisimo

@PabloVallejoMedina 3 жыл бұрын

Un placer ;)

@SkoriaD 4 жыл бұрын

Hola Pablo, saludos desde Colombia. Tengo SO Ubuntu 20.04 R Studio Versión 4.0.2 y al instalar el paquete NbClust me dice que no esta disponible para mi versión de R; alguna recomendación?? Pdt: Excelente explicación!!!

@PabloVallejoMedina 4 жыл бұрын

No te preocupes es un Warning, no un error. Puedes seguir adelante sin problema.

@Elvuevaso 3 жыл бұрын

Excelente!!

@PabloVallejoMedina 3 жыл бұрын

Muchas gracias

@adventureaf9549 2 жыл бұрын

Otra cosita pabloo, seguí al pié de la letra tu video, pero mis cluster se invirtieron, o sea para ti el cluster 2 era el que agrupaba los estados más peligrosos, pero en mis resultados es al contrario, a que se debe eso ?

@PabloVallejoMedina 2 жыл бұрын

quién sabe?? versiones diferentes de algo. Ni idea.

@nept4ne 4 жыл бұрын

Hola Pablo!. Gracias por la clase. Tengo una duda, realicé el procedimiento en base a un diseño experimental en agronomía de bloques completamente al azar en el cultivo de papa y los agrupé por bloques (o repeticiones que fueron 3). Obtuve el gráfico pero no se como interpretarlo, me podrías ayudar por favor. Gracias de antemano. Saludos de Perú.

@PabloVallejoMedina 4 жыл бұрын

En la parte final del video le doy sentido a los clústers quizá puedas hacer lo mismo ;)

@megacubo 4 жыл бұрын

Muchas gracias. Excelente. Tengo dos preguntas 1)Trabajo en R versión 4.0.2 y me dice que no hay el paquete fviz_nbclust para esta versión. Es posible adaptar el paquete de otra versíon a la versión actual?.. Otra pregunta, 2) ¿cómo se puede hacer para quitar las etiquetas en los dibujos (tengo 600 datos y no se puede apreciar la distribución y configuración de clusters?. Muchas gracias

@PabloVallejoMedina 4 жыл бұрын

Hola lo primero debe ser un Warning no un error. Con respecto a lo segundo en el argumento de fviz ponle label = "none"

@Alejandro-zk7mo 3 жыл бұрын

hola Pablo Vallejo el grafico de distancia me parece que está mal explicado en el minuto 4 maso menos... el color rojo indica un nivel alto de disimilitud si no me equivoco y los valores azules( cercanos a ceros ) indican que hay mayor similitud entre los datos, es decir que están más correlacionados

@PabloVallejoMedina 3 жыл бұрын

Totalmente, es una matriz de covarianzas y no de correlaciones. No sé en qué estaría yo. Ya mismo subo una alclaración en los subtítulos.

@annapalomarcros8723 3 жыл бұрын

Muchas gracias por este video, ¡me ha sido de gran ayuda! Tengo un par de duas (perdona si son demasiado báscias, soy principiante en esto): (1) En el último paso, cuando intento aplicar el ggplot me da un error con la función mean (el argumento "x" está ausente, sin valor por omisión). ¿Debería indicar un argumento, cuál? (2) Por otro lado, ¿Cómo tendría que hacer para calcular clusters en función a ciertas variables incluidas en un dataset con muchas otras variables?

@PabloVallejoMedina 3 жыл бұрын

Hola Ana, sin ver tu sintaxis me es un poco difícil ayudar. Pero creo que te falta este valor para el punto 1as.factor(x = caracteristica). Con respecto al punto dos no te entiendo muy bien, pero creo que creando diferentes datasets consigues lo que quieres. Algo así como la función cbind.

@annapalomarcros8723 3 жыл бұрын

@@PabloVallejoMedina ¡Muchas gracias por tu respuesta! He utilizado la sintaxis que indicas en este video. El problema me aparece al correr la última linea del código ggplot(data_long, aes(as.factor(x = caracteristica), y = valor,group=clus, colour = clus)) + stat_summary(fun = mean, geom="pointrange", size = 1)+ stat_summary(geom="line")

@annapalomarcros8723 3 жыл бұрын

Nada, ya está solucionado. ¡Mil gracias!

@PabloVallejoMedina 3 жыл бұрын

@@annapalomarcros8723 Un placer ;)

@danielgodoy9793 3 жыл бұрын

Muy bueno, gracias!

@PabloVallejoMedina 3 жыл бұрын

De nada!!!!

@enriquep4857 2 жыл бұрын

¿Para variables nominales cómo aplicarias estas funciones? Me refiero a que tengo datos de tipo (0,1) y (0,1,2,3,4). Por ejemplo Sexo (0,1), numero de tumores en grupos (0, 1,2,3,4) siendo 0 nada y 4 muchas metástasis. No encuentro nada al respecto... ya que kmeans se necesitan variables numéricas.

@PabloVallejoMedina 2 жыл бұрын

Te toca buscar un clúster robusto. Sí no todas las variables son categóricas Kmedioids te podría servir (Tengo video), pero asegúrate que sea coherente. Sino hay algunos otros interesantes.

@sergicozarbadia8831 Жыл бұрын

Hola Enrique, me pasa lo mismo... Lo conseguiste solucionar?

@luisangelbarrera-guzman7463 4 жыл бұрын

Hola buen video, solo me gustaría saber de favor como se la hace en caso de que mi primera columna tenga las etiquetas , en tu ejemplo tienes nombres de ciudades, en el mio tengo nombres de especies. Saludos.

@PabloVallejoMedina 4 жыл бұрын

Hola creo que con esta sintaxis estás listo;) dfitems

@luisangelbarrera-guzman7463 4 жыл бұрын

@@PabloVallejoMedina Hola, vale vale, voy a intentarlo. Muchas gracias. Saludos desde México.

@B3NORX2 3 жыл бұрын

Tengo una duda, esta rutina se puede hacer con dataframes con variables mixtas? o se puede hacer una matriz de disimilitud de estas variables mixtas (p.ej. usando gower) y una vez obtenida la matriz se puede hacer la rutina de NBclust ? Saludos desde Mexico!

@PabloVallejoMedina 3 жыл бұрын

Hola yo utilizaría un Kmodes o incluso un Kmedoids

@rodrigobarahona6928 5 ай бұрын

Hola Pablo, cómo estás? te escribo desde Chile. Quisiera consultarte sobre un error que me arroja el R con tu script: "Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)". He probado de todas las formas y no me resulta. Quizás un error en el csv? coloqué las localidades a comparar en columnas.

@PabloVallejoMedina 5 ай бұрын

Puedes mandarme una foto de la base de datos.

@alvita7466 3 жыл бұрын

Hola, felicidades, me encanta como explicas. pero me surge una duda, ojala puedas ayudarme. en la línea de resnumclust= alphaBeale) && (!foundBeale)) { : missing value where TRUE/FALSE needed In addition: Warning messages: 1: In pf(beale, pp, df2) : NaNs produced 2: In pf(beale, pp, df2) : NaNs produced 3: In log(det(P)/det(W)) : NaNs produced 4: In log(det(P)/det(W)) : NaNs produced 5: In log(det(P)/det(W)) : NaNs produced 6: In log(det(P)/det(W)) : NaNs produced 7: In log(det(P)/det(W)) : NaNs produced 8: In log(det(P)/det(W)) : NaNs produced 9: In log(det(P)/det(W)) : NaNs produced 10: In pf(beale, pp, df2) : NaNs produced No entiendo que es? podrías ayudarme?

@arielhernanreal2722 4 жыл бұрын

Hola, quisiera saber si en alguno de tus videos puedo ver cómo se realiza un gráfico Silueta para los cluster obtenidos con el método de K-means?

@PabloVallejoMedina 4 жыл бұрын

Creo que lo hago al final ¿no?

@arielhernanreal2722 4 жыл бұрын

@@PabloVallejoMedina Hola Pablo, no es lo que me están pidiendo realizar. Pero pude construirlo finalmente. Gracias por responderme.

@PabloVallejoMedina 4 жыл бұрын

@@arielhernanreal2722 me alegra ;I

@miancava7552 3 жыл бұрын

Tengo un conjunto de datos Gigante muy difícil de cargar en R, ¿ es recomendable realizar un proceso de clustering con una muestra ?

@PabloVallejoMedina 3 жыл бұрын

Si no te colapsa adelante ;)

@jessicapaolaamayatovar6169 3 жыл бұрын

Buenas noches Pablo! Tengo una duda, es que me mandan hacer una regresión por clusters y la verdad no tengo idea, tu me podrías decir como lo hago? o en donde encuentro información por favor!

@PabloVallejoMedina 3 жыл бұрын

Será una regresión jerárquica?