[k medoids] Clúster PAM robusto en R y Rstudio [Chupito de R]

  Рет қаралды 9,357

Pablo Vallejo Medina

Pablo Vallejo Medina

Күн бұрын

#clúster #kmedioids #conglomerados
Si te gusta mi contenido y quieres, puedes pagarme un café en: ko-fi.com/chup... así no me dormiré mientras hago los chupitos.
En este chupito de R os explicaré como utilizar este algoritmo para toma de decisiones llamado K medoids. ¿¿K medoides en español??. Se trata de una técnica de análisis por conglomerado mediante el algoritmo PAM que permite tomar decisiones sobre cuántos grupos se divide nuestra muestra. K-medias es súper fácil de hacer y aquí os muestro cómo se hace en Rstudio de una forma sencilla. Cómo hacer clúster en R. Rstudio es un programa ideal para hacer estos análisis estadísticos. Es robusto respecto a los casos atípicos y otros problemas más difíciles para el K-means.
Toda la sintaxis:
github.com/pab...

Пікірлер: 74
@EXXNmmmm
@EXXNmmmm 4 жыл бұрын
Lo bien que esto que haces me hubiera venido para mi aún inacabada tesis. Aquello me parece de pedales ahora... Serás estadístico, profesor, investigador, editor y todo eso, pero comunicando eres de lo mejor... How well you do this would have suited me for my still unfinished thesis. That past seems bicycle pedals to me now ... You will be a statistician, professor, researcher, editor and all that, but communicating you are the best ...
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Holaaaa, síii. La verdad es que la estadística actual no tiene nada que ver con lo que nos habían enseñado. El poder computacional es brutal, pero no es nada con lo que se viene ;)
@marlonguerrerocastro9673
@marlonguerrerocastro9673 4 жыл бұрын
Muchas gracias es lo que estaba buscando desde hace mucho tiempo. Exc canal con contenido muy bien explicado
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Muchas gracias @Marlon. Me alegra te guste el contenido ;)
@marlonguerrerocastro9673
@marlonguerrerocastro9673 4 жыл бұрын
@@PabloVallejoMedina Hola pablo disculpe las molestia, estuve analizando unos datos que tengo y los corri con este scrip pero no pude correr la parte donde se genera un resumen dentro de cada cluster. A que paquete pertenece la funcion mutate? me sale este error Error in mutate(., Cluster = pam3$clustering) : could not find function "mutate"
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@marlonguerrerocastro9673 dplyr
@gerenciapredictive7107
@gerenciapredictive7107 4 жыл бұрын
Excelente vídeo, muchas gracias.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
De nada, un saludo ;)
@eurano30
@eurano30 2 жыл бұрын
Gracias por hacer entendible un tema complicado.
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
A ti.
@robertoescobar4367
@robertoescobar4367 3 жыл бұрын
Gracias por hacer estos videos carnal, explicas mucho mejor que mi maestra jaja
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
Cada maestrillo tiene su librillo ;). Me alegra te guste.
@javardi86
@javardi86 4 жыл бұрын
Buen video. Me va a servir bastante.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Genial, me alegra ;)
@demianramirez3192
@demianramirez3192 2 жыл бұрын
Excelente explicaciòn
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
Muchas gracias ;)
@wilmeroporta5281
@wilmeroporta5281 3 жыл бұрын
Hoola si tengo variables tipo escalar de likerts del 1 al 7 ocuparia que metodo para clasificar
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
Hola, yo creo que este mismo podría servir. A ver cómo te va.
@mauriciocerrutti7248
@mauriciocerrutti7248 2 жыл бұрын
Estimado, no usa variables cualitativas para estimar cantidad de cluster. Si tiro la "funcion fviz_nbclust(df, pam, method = "wss")" me da error por no ser 100% numeric?
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
Hola, no te entiendo bien.
@carlosm.galvancisneros5620
@carlosm.galvancisneros5620 4 жыл бұрын
Hola, Pablo Muy buen video, tengo una pregunta: ¿cómo haces para que R o la función correspondiente te acepte la columa no numerica en el objeto "df" y así mantenga el nombre de las ciudades, por ejemplo, en el momento de hacer el dendrograma? En mi caso sólo acepta columnas numericas, no estoy trabjando con la bases de datos que tu trabajas en este video.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Hola, si tu error ya lo viví personalmente. Es que estados no es una variables, son los nombres de las filas. TIenes que utilizar este código: df
@carlosm.galvancisneros5620
@carlosm.galvancisneros5620 4 жыл бұрын
@@PabloVallejoMedina !Muchas gracias!, el código ha funcionado con éxito. He podido hacer el dendrograma con los nombres de las localidades.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@carlosm.galvancisneros5620 Súper, me alegro ;)
@fernandomurillo7959
@fernandomurillo7959 3 жыл бұрын
@@PabloVallejoMedina Muchas gracias, yo tenía la misma duda.
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
@@fernandomurillo7959 ¨De nada, tengo un video reciente sobre kmeans en super heroes donde lo soluciono ;)
@ejleguia
@ejleguia 3 жыл бұрын
buenas noches... Pablo. Una pregunta.... ¿es posible incluir variables cuantitativas discretas o categóricas en esa rutina?
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
En principio sí, luego revisa si te está agrupando con cierta lógica. ;)
@hugoalbert4695
@hugoalbert4695 2 жыл бұрын
Buenas Pablo! Al intentar ejecutar la línea: 'resnumclust
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
Muéstrame el error entero please ;)
@hugoalbert4695
@hugoalbert4695 2 жыл бұрын
@@PabloVallejoMedina Error in diag(var(Xuse)) : vector is too large
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
@@hugoalbert4695 Al ponerle este argumento: index = "alllong" creo que le queda muy pesado para tus datos, ves de uno en uno o saca solo los que te interesen.
@luzelenaduranc.3466
@luzelenaduranc.3466 2 жыл бұрын
Pablo, muchas gracias por realizar chupitos de altísima calidad. Tengo 2 dudas que quisiera aclarar con ud caso sea posible: 1. Que hacer cuando aparece este mensaje ggrepel: 20 unlabeled data points (too many overlaps). Consider increasing max.overlaps 2 Qué significa o Dim1 e o DIm2 que aparece en los ejes del gráfico de los clusters? MUchas gracias
@PabloVallejoMedina
@PabloVallejoMedina 2 жыл бұрын
Hola Luz, 1: tienes demasiadas observaciones para tener encendido el REPEL = TRUE, mejor apágalo. 2. Son las dimensiones en las que se distribuye el AFC, que al ser 2D siempre serán 2.
@ralvarezc14
@ralvarezc14 4 жыл бұрын
Muchas Gracias. Me sirvió de mucho. Solo una duda, hay forma de ocultar los labels y solo mostrar los puntos? Saludos.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Hola sí. Simplemente tienes que explorar la función fviz ;) sería algo así: fviz_cluster(k3, geom = "point", data = tudataframe[-1]) salvo que du data frame este organizado raro eso te debería servir.
@ojilvemedrano
@ojilvemedrano 4 жыл бұрын
¿Pablo para cuando organizas un botellón sobre R (curso)?. Es hora de juntarnos en un chupinazo!
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Había pensando hacer un directo un día de estos, pero no suelo tener calma ahora mismo para hacerlo.
@bastianelgueta7318
@bastianelgueta7318 4 жыл бұрын
Qué recomiendas para clusterizar a partir de variables categóricas y continuas? Saludos !
@bastianelgueta7318
@bastianelgueta7318 4 жыл бұрын
Y como determinas cuales y cuantaas variables utilizar para clusterizar?
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Puede ser Kmodes, Kamila no sé si servirá.. Depende un poco.
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@bastianelgueta7318 Creo que mientras esté teóricamente justificado no hay lio.
@valeriafonseca8228
@valeriafonseca8228 3 жыл бұрын
Hola Pablo, amé el video enserio ya comprendo mucho mejor todo, sin embargo cuando quiero aplicar mutate(cluster= pam.res$cluster), para poder ver un summary en tabla de las variables por clusters no me deja, sale que la función mutate no es encontrada ... debo instalar algo primero?
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
Muchas gracias. Hay otro video donde explico un poco lo de mutate (se llama de long format a wide) o algo así ;). Tienes que instalar antes dplyr y llamaro ;). Un saludo y genial que te haya gustado.
@solidarityLearningSol
@solidarityLearningSol 4 жыл бұрын
Hola Pablo, que hacer cuando quiero aplicar PAM sobre un dataset que tiene millones de registros y aparece este mensaje: > pam9
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Bufff, ni idea. Ese big data me queda grande
@fernandomurillo7959
@fernandomurillo7959 3 жыл бұрын
Sucede que pam es limitado en datos, exactamente en 65536, deberías trabajar con clara en vez de pam, ya que clara acepta cantidades de datos mas grandes.
@PabloVallejoMedina
@PabloVallejoMedina 3 жыл бұрын
@@fernandomurillo7959 Sí, yo no suelo trabajar en big data, pero sería una opción más eficiente para data sets tan grandes.
@rafaelme4339
@rafaelme4339 4 жыл бұрын
Hola Pablo, estoy haciendo un análisis aplicando este método. Tengo algunas dudas acerca de emplear el método kendall u otro, ya que mis datos son de tipo ordinal en una escala de 1 a 5. ¿Usarías otro para este tipo de datos? Muchas gracias por la info, no sabes lo que estoy aprendiendo :)
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Uff no lo sé. Iría probando a ver qué tal funciona. Pero a priori no le veo mucho problema a Kendall ;)
@rafaelme4339
@rafaelme4339 4 жыл бұрын
@@PabloVallejoMedina Muchas gracias
@samirricardoneme-chaves9086
@samirricardoneme-chaves9086 4 жыл бұрын
Estimado Pablo, excelente chupito, gracias por la explicación , tengo una duda, ¿si yo tengo un objeto hclust, podría convertirlo a data frame para graficarlo con ggplot y sacarle más jugo que solo el dendograma?
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Hola Samir, eso no es lo que hago al final del vídeo?
@samirricardoneme-chaves9086
@samirricardoneme-chaves9086 4 жыл бұрын
@@PabloVallejoMedina lo revisaré con detenimiento, gracias !
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@samirricardoneme-chaves9086 clarooo-!!
@samirricardoneme-chaves9086
@samirricardoneme-chaves9086 4 жыл бұрын
@@PabloVallejoMedina Lo he conseguido, gracias !
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@samirricardoneme-chaves9086 Genial, te veo on fire!!
@miguelortiz5209
@miguelortiz5209 4 жыл бұрын
Puedes hacer un fuzzy c medias? Y explicar eso del vector de pesos?
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
No sé se me vaya por ahí ahora mismo. De momento voy a dejar los clústeres. EN el futuro quizá lo añada ;)
@jolguinsito
@jolguinsito 4 жыл бұрын
Hola, tengo una dudade como cambiar la ruta de rstudio general para que me busque los paquetes dado que al intentar activar algun paquete me sale el siguiente error, de antemano gracias (quiero cambiarlo a "C:/") Error: package or namespace load failed for ‘readxl’ in get(Info[i, 1], envir = env): no fue posible abrir el archivo 'C:/Users/lOlguín/Documents/R/win-library/4.0/Rcpp/R/Rcpp.rdb': No such file or directory
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
simplemente escribe file.choose() y ejecuta, se te abrirá una ventana, eliges tu archivo y en la consola te escupe la ruta ;)
@jolguinsito
@jolguinsito 4 жыл бұрын
@@PabloVallejoMedina gracias pero no es ese mi problema, a ver como me explico quiero redirigir donde r busque los paquetes y librerias porque esta buscando en documentos y el mombre de carpeta de usuario tiene tilde y quiero llevarlo a la base del disco c y se que hay una formula para ello
@jolguinsito
@jolguinsito 4 жыл бұрын
@@PabloVallejoMedina ya encontre mi respuesta, use .libPhats para redirigir la instalacion y busqueda de paquetes. Muchas gracias
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@jolguinsito Ahhh genial, no te entendí. No conocía esa forma ;)
@marialesendon7541
@marialesendon7541 4 жыл бұрын
Hola Pablo! Muchas gracias por el video! Tengo un problema y creo que tiene que ver con que no puedo bajar la base de datos como un data frame. Y la primera columna es de texto... entonces no la normaliza... Probé algo que sugeriste en otro video pero no me funcionó era esto, dfitems
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
prueba primero df
@marialesendon7541
@marialesendon7541 4 жыл бұрын
@@PabloVallejoMedina Muchas gracias!. Te mando un saludo gigante !!!
@gorditaau
@gorditaau 4 жыл бұрын
Muchas gracias por el video, pero tengo problemas al correr la línea 70, me arroja esto "Warning: Ignoring unknown parameters: fun" y luego me tira todos los valores iguales a cero, sería de mucha ayuda si sabes la respuesta. Saludos!
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
Hola paula, me puedes enviar el código del ggplot que estás poniendo?
@gorditaau
@gorditaau 4 жыл бұрын
ggplot(data_long, aes(as.factor(x = variable), y = valor,group=cluster, colour = cluster)) + stat_summary(fun=mean, geom="pointrange", size = 1, aes(shape = cluster))+ stat_summary(geom="line") Le hice cambios, adhoc a mi código. Gracias de antemano
@PabloVallejoMedina
@PabloVallejoMedina 4 жыл бұрын
@@gorditaau Mhh no sé. Aquí parece que pueda haber una función que te ayude, pero no sé que puede estar pasando... www.r-bloggers.com/simplifying-ggplot2-code-by-doing-nothing/
@gorditaau
@gorditaau 4 жыл бұрын
Gracias!
Cómo hacer un Análisis Factorial Exploratorio en R. [Chupitos de R]
19:15
Pablo Vallejo Medina
Рет қаралды 20 М.
[K means] Análisis de Clúster en R y Rstudio. [Chupitos de R]
22:51
Pablo Vallejo Medina
Рет қаралды 62 М.
Don’t Choose The Wrong Box 😱
00:41
Topper Guild
Рет қаралды 62 МЛН
Enceinte et en Bazard: Les Chroniques du Nettoyage ! 🚽✨
00:21
Two More French
Рет қаралды 42 МЛН
Арыстанның айқасы, Тәуіржанның шайқасы!
25:51
QosLike / ҚосЛайк / Косылайық
Рет қаралды 700 М.
REAL or FAKE? #beatbox #tiktok
01:03
BeatboxJCOP
Рет қаралды 18 МЛН
Cómo hacer una regresión en R y Rstudio [Chupito de R]
25:21
Pablo Vallejo Medina
Рет қаралды 7 М.
Los mejores paquetes para R y Rstudio. [Chupito de R]
17:10
Pablo Vallejo Medina
Рет қаралды 9 М.
Análisis de componentes principales (PCA)
31:10
Serrano.Academy en Español
Рет қаралды 31 М.
Análisis de clustering o conglomerados
1:29:47
Omar Bello
Рет қаралды 26 М.
Clúster de super héroes Marvel y DC en Rstudio y R [Chupito de R]
18:33
Pablo Vallejo Medina
Рет қаралды 5 М.
Cómo comprobar los supuestos en R y Rstudio. [Chupitos de R]
33:41
Pablo Vallejo Medina
Рет қаралды 21 М.
Clustering con K-Means. Explicación Matemática y Mucho más…
27:10
Rocio Chavez Ciencia de Datos
Рет қаралды 28 М.
Cluster (Análisis de conglomerados) R Studio
55:30
Jeff Sibaja
Рет қаралды 4,5 М.
Introducción a ggplot2 [Chupitos de R]
23:33
Pablo Vallejo Medina
Рет қаралды 21 М.
Don’t Choose The Wrong Box 😱
00:41
Topper Guild
Рет қаралды 62 МЛН