Análisis del Componente Principal PCA con Python

  Рет қаралды 7,116

Jacob Avila Camacho

Jacob Avila Camacho

Күн бұрын

Пікірлер: 30
@isabelrodriguezrobledo9238
@isabelrodriguezrobledo9238 3 жыл бұрын
Excelente vídeo! Justo lo que estaba buscando. Gracias!!! Saludos y bendiciones desde España! Sigue asi 💪
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
Hola Isabel, muchas gracias. Que bueno que te sirvió
@LlamaFina
@LlamaFina 4 жыл бұрын
Qué genial. Mejor explicado imposible.... Ojalá te animes a sacar una continuación
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Muchas gracias Patrick, en eso ando, creando nuevo material. Saludos
@cMonsalveAdm
@cMonsalveAdm 3 жыл бұрын
Prof una cuestion que no entendi : si estoy trabajando con un dataset que no tiene una columna de cluster definida , antes de hallar los componentes principales hay que hallar los clusters de cada registro y colocarlo como columna en el dataset original? fue lo que yo hice porque encontre del dataset de Wines pero sin la columna de a que grupo pertenece cada uno , por lo cual primero halle los clusters con KMeans de cada uno y lo coloque como columna, luego ahi si empece a seguir el codigo para hallar los PCA. y la matriz de confusion me ha dado resultados similares al de este video..
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
Estuvo excelente lo que hiciste. En realidad la columna de la categoría nos sirve en este ejemplo para que, después de reducir la dimensionalidad de las variables independientes, podamos comprobar, en este caso, con la regresión logística, a que clase pertenece y validar que aunque las variables ya no son las mismas que las originales, el modelo funciona.
@cMonsalveAdm
@cMonsalveAdm 3 жыл бұрын
@@jacobavilacamacho7644 me ha quedado claro , gracias Master
@alezas1102
@alezas1102 3 жыл бұрын
hola lo que yo no entiendo es el conjunto debe de estar previamente clasificado?? tengo un conjunto de 500 documentos de wikipedia que ya preprocese y tengo una matriz de 1855 rows x 8482 columns con tf-idf y quiero aplicarle PCA pero como? los ejemplos que encuentro en internet usan el conjunto de vinos y flores pero estan pre clasificados, que necesito para que mi matriz de 1855 rows x 8482 columns quede como la de vinos y flores?? que me falta??? alguien me puede ayudar??? se lo agradecere mucho!!
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
Hola Ana Laura, no necesitas preclasificarlos, si lo único que quieres es disminuir la dimensión de esos 8,482 variables. Ya con la reducción de la dimensión podrías meterlos a un clustering para obtener los diversos clusters o grupos que existan y ya tener una clasificación. Pero no necesitas hacerlo antes del PCA
@alezas1102
@alezas1102 3 жыл бұрын
@@jacobavilacamacho7644 es que lei que PCA es usado para encontrar relaciones semanticas principalmente de tipo hiponimia e hiperonimia, y hasta ahora parece que ya logre aplicar PCA pero por medio de extracción de eigenvectors y eigenvalues que según la teoria de PCA en ello consiste pero para recuperar información textual sería por algún método de recuperación de información? Hay algún libro que pueda consultar que refleje este tipo de info?? Gracias!
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
@@alezas1102 Es correcto, si lo que buscas es reducir la dimensión lo mejor es con los vectores propios (eigenvectors) para no perder información o demasiada información en la nuevas variables. El PCA es no supervisado, por lo que, como te comentaba ayer, no necesitas clasificar antes, si utilizaras el LDA, entonces si. En cuanto a algún libro, este trae toda la teoría: sci-hub.se/link.springer.com/book/10.1007/b98835
@alezas1102
@alezas1102 3 жыл бұрын
@@jacobavilacamacho7644 MUCHISIMAS GRACIAS :)
@alezas1102
@alezas1102 3 жыл бұрын
hola de nuevo yo preguntando... cuando ya obtuviste eigenvectores y todo eso pero a partir de un texto plano no etiquetado como sabes que vector es de que termino? algún método o algoritmo que me pudieras aconsejar? para buscar e implementar? Gracias
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
Hola Ana Laura, con el esquema de PCA, ordenas los vectores de mayor a menor en base a sus eigenvalues y seleccionas los n primeros de acuerdo a la cantidad de variables que quieres tener finalmente
@alezas1102
@alezas1102 3 жыл бұрын
@@jacobavilacamacho7644 Muchas gracias, lo hare!!
@jessicasari9656
@jessicasari9656 4 жыл бұрын
Un muy buen aporte, me ayudaste mucho
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Muchas gracias Jessica y que bueno saber que te es de utilidad
@portada54
@portada54 4 жыл бұрын
Muy buen vídeo, Me aclaro muchas cosas
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Muchas gracias Julian
@LuisMorales-bc7ro
@LuisMorales-bc7ro 3 жыл бұрын
Exelente video! Gran explicación! Estaría bueno que explicaras algún método para seleccionar un buen número de componentes principales.
@jacobavilacamacho7644
@jacobavilacamacho7644 3 жыл бұрын
Hola Luis, gracias por tu comentario. Si lo voy a realizar
@LuisMorales-bc7ro
@LuisMorales-bc7ro 3 жыл бұрын
@@jacobavilacamacho7644 perfecto! Quedo al pendiente de ese video. Aún soy estudiante y apenas cursé estadística multivariada, donde aprendí PCA en minitab. Conozco algunas técnicas para seleccionar el número de pca, pero me gustaría aprenderlo en python! Gracias por tu aporte!
@adrianaa7182
@adrianaa7182 4 жыл бұрын
Hola!, buen video, tengo una duda ¿Por qué para escoger la cantidad de componentes no usas los vectores y valores propios?
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Hola Adriana. Si se pueden usar los vectores y valores propios, de hecho el algoritmo ordena dichos vectores de acuerdo a su valor propio de mayor a menor y de ahí seleccionas la cantidad de vectores representativos y es lo que te da el número de componente, sin embargo, en este esquema, al utilizar la clase PCA de sklearn, estoy utilizando la formula que menciona la documentación: n_components == min(n_samples, n_features) - 1 dado que tenemos 3 características , es el valor mínimo entre las muestras y las características, menos 1, nos da 2 componentes. scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
@KarlVonBismark
@KarlVonBismark 4 жыл бұрын
El archivo de vinos, ¿dónde se encuentra?
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Te dejo la liga para descargarlo drive.google.com/open?id=1GeH8W1zFuq9XH2qaS66JJEXJh2QuO292
@analauraac2244
@analauraac2244 2 жыл бұрын
Excelente
@jacobavilacamacho7644
@jacobavilacamacho7644 2 жыл бұрын
Muchas gracias
@gabrielnava2383
@gabrielnava2383 4 жыл бұрын
Gracias! Muy buena explicación Solamente una duda. 🙂 En general, no existe problema o se deben tomar medidas de ajuste si , por ejemplo: Los vinos se segmentan en más de 3 categorías? Digamos, 50
@jacobavilacamacho7644
@jacobavilacamacho7644 4 жыл бұрын
Que tal Gabriel. En un caso así de bastantes categorías la clasificación se podría hacer con árboles de decisión. El PCA no tendría problema, por que es la reducción de la dimensión, serían las variables independientes las que se van a reducir, pero ya reducido, entonces habría que clasificar con algún método para esa cantidad de categorías, de hecho la regresión logística también podría utilizarse sin ningún ajuste adicional, no habría problema
Clustering Jerarquico
28:55
Jacob Avila Camacho
Рет қаралды 1,6 М.
Análisis Discriminante Lineal LDA con Python
40:00
Jacob Avila Camacho
Рет қаралды 7 М.
Sigma girl VS Sigma Error girl 2  #shorts #sigma
0:27
Jin and Hattie
Рет қаралды 124 МЛН
Jaidarman TOP / Жоғары лига-2023 / Жекпе-жек 1-ТУР / 1-топ
1:30:54
Вопрос Ребром - Джиган
43:52
Gazgolder
Рет қаралды 3,8 МЛН
Жездуха 42-серия
29:26
Million Show
Рет қаралды 2,6 МЛН
Los K Vecinos más Cercanos | K Nearest Neighbors | KNN Algoritmo con Python
25:06
StatQuest: PCA in Python
11:37
StatQuest with Josh Starmer
Рет қаралды 210 М.
Análisis de componentes principales (PCA)
31:10
Serrano.Academy en Español
Рет қаралды 30 М.
Analisis de Componentes Principales ACP
1:38:28
Luis Felipe Rios Herrera
Рет қаралды 44 М.
Explicación intuitiva del Análisis de Componentes Principales
11:01
Jose Luis Vicente Villardon
Рет қаралды 61 М.
Análisis de Componentes Principales: Maximización de varianza
1:19:08
StatQuest: Principal Component Analysis (PCA), Step-by-Step
21:58
StatQuest with Josh Starmer
Рет қаралды 3 МЛН
Regression Analysis | Full Course 2025
1:09:13
DATAtab
Рет қаралды 11 М.
¿Qué es el Overfitting o sobre ajuste y cómo afrontarlo?
27:58
Jacob Avila Camacho
Рет қаралды 3,1 М.
ПОСТАРЕЛА ЗА 1 ДЕНЬ НА 20 ЛЕТ - МУЖСКОЕ ЖЕНСКОЕ
55:44
ПРИЯТНЫЙ ИЛЬДАР
Рет қаралды 677 М.
БОЛЬШЕ ВИДОСОВ С ИНСТЕ: PONYATOWSKIY
0:42
НУСТАС И ПОЛЯ
Рет қаралды 1,9 МЛН
КАК ЖИВЕТ КВАНТУМ? РУМ ТУР КВАНТУМА!!!
13:51
🪄Вечная спичка #diy #выживание #поход
1:00
Короче, ВИ
Рет қаралды 2,8 МЛН
КОРОЧЕ ГОВОРЯ, НЕДЕЛЯ БЕЗ ТЕЛЕФОНА
3:54