Ep. 10 Procesamiento de datos (PCA)

  Рет қаралды 27,234

AMP Tech

AMP Tech

Күн бұрын

Пікірлер: 82
@Lucas-kh2wm
@Lucas-kh2wm 2 жыл бұрын
La mejor explicación que pude encontrar
@AMPTech
@AMPTech 2 жыл бұрын
Gracias Lucas!
@daron98
@daron98 Жыл бұрын
Viejo. Eres muy bueno explicando. Los 15 min se me fueron volando,
@andressuarez1
@andressuarez1 3 жыл бұрын
Bro tu canal es mas educativo que muchísimos, igualmente tu actitud y tono de voz ayudan mucho, los podcast están geniales, ojala y puedas retomar el canal pronto. un abrazo.
@mayikx
@mayikx 7 жыл бұрын
Amigo tienes excelente material, colócalo en github para complementar este excelente trabajo. Muchas gracias por compartir tu valiosos tiempo y conocimiento con la comunidad.
@AMPTech
@AMPTech 7 жыл бұрын
Listo, ahorita puse el código de este episodio. Pero trabajaré en subir los demas. github.com/puigalex/AMP-Tech/blob/master/Ep.10%20PCA.ipynb
@mayikx
@mayikx 7 жыл бұрын
Muchas gracias , gracias a tus ejemplos he logrado aprender cogerle más cariño al machine learning , sigue asi , un abrazo desde colombia.
@eugenital8567
@eugenital8567 7 жыл бұрын
Voy a ponerlo en práctica. Es muy interesante.
@sazollne
@sazollne 5 жыл бұрын
Muy clara tu forma de explicar, gracias
@HENRICOVI
@HENRICOVI 6 жыл бұрын
Muy buen trabajo. Enhorabuena.
@tomasvonbischoffshau
@tomasvonbischoffshau 2 жыл бұрын
Muy bueno! Gracias!
@AlexMartinez-hz6bi
@AlexMartinez-hz6bi 6 жыл бұрын
Tengo dudas, cuando te quedas con solo dos componentes principales ¿quiere decir que te estas quedando con los valores mas representativos de los datos?, PCA se trata de reducir la dimencionalidad, en tu ejemplo de pasar de 30 variables te quedas con solo 2 variables ¿Cual es el porcentaje total de esas dos variables?, ¿Cual es el porcentaje que estas dispuesto a perder?. Espero me puedas contestar, de ante mano gracias por los vídeos.
@dulceluna1209
@dulceluna1209 Жыл бұрын
hola como se llama la aplicacion que esta usando
@estebanruiz284
@estebanruiz284 4 жыл бұрын
Para realizar la gráfica del codo en relación varios componentes vs la varianza, de que manera se podría hacer el análisis. por ejemplo. cancer = load_breast_cancer() X = cancer.data componentes [1,3,5,7,9] for i in componentes: pca = PCA(n_components = i).fit(X) pca.explained_variance_ratio_ t = pca.transform(X) print(t.shape)
@onigumo96
@onigumo96 3 жыл бұрын
que hace el comando target?, tal vez sea por la version pero ya no me permite usarlo
@moisesstevend
@moisesstevend 3 жыл бұрын
buena explicacion, sigue adelante!!
@Estebanmorenozapata
@Estebanmorenozapata 4 жыл бұрын
Super bien .. Amigo tengo un problema y quizas me.puedas ayudar : Digamos que tengo 100 pacientes 50 con cancer y 50 sin cancer y para cada paciente hay al menos unas 400 características .. Quisiera saber si de alguna manera con pca o un boxplot solo obtener las características que sean mas relevantes para saber si un paciente tiene cancer o no
@reimanalfonso3692
@reimanalfonso3692 3 жыл бұрын
Hola, muy buena la explicación, mi duda es al siguiente, debo aplicar PCA para reducir un conjutno de n_gramas contextuales que extraje de un texto. Como puedo aplicar PCA sobre ese conjutno que no necesariamente son características?
@ecmiguel
@ecmiguel Жыл бұрын
Hola buen video. Mi duda es que la teoría estadística sobre PCA tiene como base o inicio un set de datos normalizados (media=0) y aquí usas otra clase de escalamiento. Si alguien puede mostrarme que estoy equivocado se lo agradeceré.
@franciscomiranda3239
@franciscomiranda3239 3 жыл бұрын
Felicito la instancia y que ejemplo del mundo real se puede ocupar interpretando los resultados con autovalores y autovectores??
@rubenguachalla8664
@rubenguachalla8664 5 жыл бұрын
AMP Tech quisiera preguntarte según tu experiencia ¿es muy común aplicar ACP antes de aplicar algún algoritmo de clasificación? ¿Que algoritmo de clasificación recomendarías?
@patata266
@patata266 4 жыл бұрын
no conviene usar autoencoder ?
@ronaldalcantara6165
@ronaldalcantara6165 6 жыл бұрын
Hola Álex, una consulta. Habiendo escalado de 0 a 1 la data cómo haría para hacer predicciones habiendo llegado a visualizar el último gráfico?. Muchas gracias de antemano por tu ayuda.
@damianomarsilva3233
@damianomarsilva3233 4 жыл бұрын
Excelente tu explicación, muy buena. Te consulto: en qué situaciones utilizarías MinMaxScaler o StandardScaler? Existe alguna "fórmula" para determinarlo? Muchas gracias.
@erickrequejo2111
@erickrequejo2111 2 жыл бұрын
Esa función como el lo explica es es el proceso de estandarización que sea aplicaba en caso como las distribuciones normales estandarizadas, es de cierta manera evitar sesgos trabajando toda la data a una misma escala, este proceso casi siempre se recomienda, pues es otra forma de reducir el sesgo por outliers.
@datexland
@datexland 6 жыл бұрын
Buenas tardes primeramente muy agradecido por los vídeos me han sido de mucha utilidad , una pregunta cual es la utilidad del paquete mglearn ????
@wavyjones96
@wavyjones96 2 жыл бұрын
Con esto me surgen varias dudas: 1. ¿No tendrias que haber dropeado el target del data antes de escalarlo? 2. ¿El escalar datos antes de hacer train test split no causa Data Lakeage?
@rubenguachalla8664
@rubenguachalla8664 5 жыл бұрын
Hola. Una pregunta. Para realizar clasificación no supervisada tambien sería ideal realizar pca y mantener 2 variables. Seguido luego realizar algún método de clasificacion no supervisada?. Saludos
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
exacto , pca es una tenica para unsuperviside learning , y luego aplica clustering
@carlapintoa4983
@carlapintoa4983 Жыл бұрын
Hola, me ayudas con la base de datos del cáncer por favor
@nicolesalazarcuellar5262
@nicolesalazarcuellar5262 6 жыл бұрын
Grande!
@juanpino3365
@juanpino3365 6 жыл бұрын
Hola, puedes hacer un video explicando LDA. Gracias
@bogRivera
@bogRivera Жыл бұрын
Tengo una duda y es que no encuentro mucha información respecto a eso. Cuando se pasan las dos características más relevantes (pca = PCA(n_components = 2)) ¿Qué características estoy tomando? Entiendo que son las más relevantes pero no entiendo esa parte. Si alguien me pudiera explicar, muchas gracias.
@luisdavid1212
@luisdavid1212 3 жыл бұрын
Hola. Cómo puedo unir los resultado del pca con los datos originales? Esto con la finalidad de asociar con el individuo al que le corresponde... Gracias
@jabesfriasmartinez6953
@jabesfriasmartinez6953 2 жыл бұрын
Creo que no
@AndresOscarRaulAtencio
@AndresOscarRaulAtencio 7 жыл бұрын
Muy buenos los videos!! Consulta, para emplear el preprocesamiento PCA los datos deben estar clasificado si o si? Es decir, PCA se puede utilizar para pre procesar datos para ml no supervisado?
@AMPTech
@AMPTech 7 жыл бұрын
+Andres Oscar Raul Atencio si, de hecho en el video lo hago con sólo los datos, no uso la clasificación. PCA es súper recomendado para aprendizaje no supervisado
@AndresOscarRaulAtencio
@AndresOscarRaulAtencio 7 жыл бұрын
Gracias por la respuesta ;). Una consulta mas, en la linea: mglearn.discrete_scatter(transformada[:,0],transformada[:,1], cancer.target) No estarías usando la clasificación?
@AMPTech
@AMPTech 7 жыл бұрын
+Andres Oscar Raul Atencio si, pero no la uso para entrenar nada, solo lo uso para colorear la gráfica y que puedan ver cómo PCA nos está ayudando a generar una distinción entre los datos. Saludos!
@AndresOscarRaulAtencio
@AndresOscarRaulAtencio 7 жыл бұрын
Si, eso veo que no lo usas para entrenar nada. Yo me refiero a que sin tener los datos clasificados es imposible hacer ese gráfico para poder "jugar" con los parámetros y ver cuales son los parámetros mas representativos. Es decir que una vez reducida la matriz, debería usar el algoritmo KMeans como para hacer una clasificación, siendo el caso en el cual no tengo los datos clasificados. Gracias Alex! Segui con los videos de TF. Muy bueno el primero!.
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
@@AndresOscarRaulAtencio exacto k means , y tal vez aplicar elbow method para ver cuantos k usar
@arturocervantes2246
@arturocervantes2246 5 жыл бұрын
excelente, pero como podemos saber si estamos en lo correcto trabajar con solo 2 dimensiones o quizá haya perdido información relevante, tengo fe en que despejes mi duda
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
pues el pca es un algoritmo muy usado , aunque tambien existen otros . Tendrias que investigar tal vez en que situacion se pueda usar uno o otro ( tal vez en el rubro de aplicacion que estas trabajando ) . Me parece que el objetivo de todo los algoritmos de reduccion de data es graficarlo en dos dimensiones
@aldoyactayo05
@aldoyactayo05 5 жыл бұрын
Hola, como puedo determinar que tipo de transformacion debo hacer a la data, es decir, cuando sabre si debo aplicarle logaritmo o elevarlo al cuadrado para estandarizar? muchas gracias
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
si te refieres a cuando debes normalizar , es cuando tienen variables lo cuales contengan rangos muy distintos
@monicaaranedaalarcon1115
@monicaaranedaalarcon1115 4 жыл бұрын
a que te refieres con entrenamiento ?
@ivanmoreno1668
@ivanmoreno1668 4 жыл бұрын
En el.contexto de ML, como su nombre lo dices, es la etapa donde ciertamente el modelo usado generaliza posibles patrones encontrado en los datos de entrenamiento.
@gymtrackerr
@gymtrackerr Жыл бұрын
gym
@kamiloto01
@kamiloto01 6 жыл бұрын
Alex excelente material, muy buena explicación. Tengo una consulta, sabes de al código en el que yo pueda poner a iterar el PCA, para que sea el mismo algoritmo el que elija el número de componentes principales?, es decir, tengo una BD de 1400 columnas, aproximadamente, y quiero recudir, pero sé que con PCA puedo poner a que el algoritmo hace varias interacciones y que él elija el número ideal de componentes. Si sabes de algún código que pueda usar, te lo agradecería mucho. Saludos.
@HENRICOVI
@HENRICOVI 6 жыл бұрын
Si lo que estás pensando es después entrenar un modelo sobre los datos "reducidos" por PCA , puedes generarte una especie de bucle que vaya creando PCA de 2,3,4,... componentes vas ejecutando y validando los modelos que te interesen y guardandote los resultados del mismo. Luego se me ocurre que puedes graficar el número de componentes en eje x y "resultado" del modelo en eje y para ver cuando deja de mejorar la respuesta del modelo. No se si me he explicado. Tambien podrías complicar más la programación para que el solito vea cual es el mejor o partir de que numero de componentes el modelo deja de mejorar significativamente.
@ulisesgarcia8960
@ulisesgarcia8960 6 жыл бұрын
eso es un tema que aún se investiga, se llama selección de caracteristicas no existe como tal una solución pero tu podrias proponer algún modelo que seleccione las caracteristicas necesarias para un algoritmo de Clasificación
@GONZUdAce11
@GONZUdAce11 3 жыл бұрын
Habria sido bueno q mostraras la info de la base de datos, almenos los headers porq la verdad es q no entendi de donde se clasifico si el tumor era benigno o maligno. Si pudieras explicarlo lo agradeceria.
@TheDestrucctor
@TheDestrucctor 5 жыл бұрын
Profundiza más sobre como procesar la data.
@lauracamargo7712
@lauracamargo7712 6 жыл бұрын
Tengo una colsulta cuando pones from sklearn.datasets import load_breast_cancer de donde sale load_breast_cancer es el archivo ? Gracias
@AMPTech
@AMPTech 6 жыл бұрын
Ese archivo viene incluido en la paquetería de sklearn, contiene el set de datos que usamos. Si tienes instalado sklearn de manera completa, debes tener ese dataset.
@lauracamargo7712
@lauracamargo7712 6 жыл бұрын
gracias, que amable
@yeisoneduardo9856
@yeisoneduardo9856 7 жыл бұрын
Podrías compartir los datos para practicar, se te agradecería bastante
@k3nn1hu3rt45
@k3nn1hu3rt45 7 жыл бұрын
github.com/puigalex/AMP-Tech/blob/master/Ep.10%20PCA.ipynb
@yeisoneduardo7127
@yeisoneduardo7127 7 жыл бұрын
gracias :D!, algun libro que tenga la explicacion igual de detallada
@k3nn1hu3rt45
@k3nn1hu3rt45 7 жыл бұрын
He aprendido mucho con tus videos! gracias por tu gran aporte! Te hago una consulta, como puedo llamar el algoritmo que generé desde mi pagina web hecha en python? Muchas gracias
@AMPTech
@AMPTech 7 жыл бұрын
+Kenny Fernand vas a necesitar algún framework como Django o Flask
@k3nn1hu3rt45
@k3nn1hu3rt45 7 жыл бұрын
Si Alex, estoy usando Botte para generar la página web.
@victorvillacortaplasencia611
@victorvillacortaplasencia611 7 жыл бұрын
Realmente tus videos son geniales, una consulta : Veamos...... Supongo tambien es válido usar el MinMaxScaler sin aplicar el PCA , ya que según observo el PCA es mas con fines visuales... estoy en lo correcto ???? O en todo caso en que casos es conveniente o aceptable plantear un entrenamiento usando PCA para reducir variables en vez de todas las variables ????
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
el minmaxscaler , lo que hace con la data es escalar todo los datos , esto se aplica cuando tus features (variables) tienen rango distintos , ejem de como hallar el precio de una casa , sus variables podrian ser area , numero de habitaciones , colegios alrededor , empleabilidad . Entonces los valores cada una de estas variables son muy disntintos , area ( puede tomar valores de 1000 - 3000 ) , numero de habitaciones (3-10 habit) , empleabilidad ( 0-100%) , etc . Para Estos valores muy distintos entre si se aplicar esa funcion
@rturoRey
@rturoRey 6 жыл бұрын
Hola buen material ¿tengo una duda? con load_breast_cancer() ves las caracteristicas. ¿como funciona? Lo anterior por que ¿Como podría ver los nombres de mis columnas o carcteristicas de mi archivo.csv? Saludos.
@ulisesgarcia8960
@ulisesgarcia8960 6 жыл бұрын
hola que tal, con load_breast_cancer() solo estas leyendo el archivos csv de la data, para ver los valores de las columnas usas .head() en el objeto que creas para leer el archivo. ejemplo: file=load_breast_cancer() file.head() asi visualizas tus columnas
@jorgecantoshuerto1451
@jorgecantoshuerto1451 3 жыл бұрын
y de donde saco esa data como lo encuentro porfavor
@rodolfoalquerquesuarez2919
@rodolfoalquerquesuarez2919 6 жыл бұрын
tienes email donde te pueda escribir por interno ?
@rodolfoalquerquesuarez2919
@rodolfoalquerquesuarez2919 6 жыл бұрын
me gustaria saber si podrias ayudar con algunas dudas que tengo al respecto
@ivanparedes7894
@ivanparedes7894 7 жыл бұрын
supongamos que tengo que analizar un problema de regresion lineal, y tengo algunos valores que hace que no se ajuste muy bien la hipotesis o los thetas encontrados, estara bien que los elimine a esos datos del set de entrenamiento. o sea los trato como valores anomalos y los limpio?. o no seria buena idea
@AMPTech
@AMPTech 7 жыл бұрын
+ivan paredes eso depende, en inglés se llaman outlyers, hay casos en los que conviene quitarlos pues no representan nada importante y otros en los que es mejor dejarlos. Por ejemplo (muuy simplificado) si quieres el promedio de sueldo de maestros y encuentras uno que obtiene 2 millones de dolares anuales, sería conveniente quitarlo pues sólo va a afectar tu resultado final de una manera que no representa lo que estas buscando
@HomeroOrtegaBoada
@HomeroOrtegaBoada 6 жыл бұрын
4:58. Como se llama el editor de Python que usa?
@juanpino3365
@juanpino3365 6 жыл бұрын
Jupyter notebook
@pinkiethesmilingcat2862
@pinkiethesmilingcat2862 7 жыл бұрын
Muy bien! Yo le subtitulo al español el curso de Math Of Intelligence a Siraj Raval, y no le pides nada! Eres mexicano no? de que parte?
@PetaZire
@PetaZire 7 жыл бұрын
Excelentes videos! Tengo un pequeño error con import mglearn! ImportError: cannot import name 'imread'
@luisdiaz-su5fj
@luisdiaz-su5fj 5 жыл бұрын
entra al cmd y coloca pip install mglearn
@turnoaviso5304
@turnoaviso5304 6 жыл бұрын
primero genial tus videos pero tengo una duda en un ejemplo que encontre usan Standardscaler() ademas ¿ porque usas la libreria mglearn ?, no he visto muchos ejemplos ocupando esa libreria , mira el ejemplo del enlace si puedes. chrisalbon.com/machine_learning/feature_engineering/feature_extraction_with_pca/, muchas gracias
@baldeaguirre
@baldeaguirre 4 жыл бұрын
antes de ver este vídeo te falto recomendar que lean un poco sobre PCA o que por lo menos vean el vídeo explicativo de Luis Serrano.
@jeanfrancollantoyroca876
@jeanfrancollantoyroca876 4 жыл бұрын
en ese tiempo no habia el video de luis serrano sobre pca jaja
@ivanmoreno1668
@ivanmoreno1668 4 жыл бұрын
Cuidado con llamar ruido a la varianza asociada a los datos.
@victorvillacortaplasencia611
@victorvillacortaplasencia611 7 жыл бұрын
Realmente tus videos son geniales, una consulta : Veamos...... Supongo tambien es válido usar el MinMaxScaler sin aplicar el PCA , ya que según observo el PCA es mas con fines visuales... estoy en lo correcto ???? O en todo caso en que casos es conveniente o aceptable plantear un entrenamiento usando PCA para reducir variables en vez de todas las variables ????
@AMPTech
@AMPTech 7 жыл бұрын
+VICTOR VILLACORTA PLASENCIA si,min max scaler se puede usar sin PCA. De hecho siempre es recomendable normalizar los datos antes de meterlos a un algoritmo de aprendizaje. A veces conviene reducir con minmax, a veces de rango de 0 a 1 o de -1 a 1
Ep. 11 ¿Cómo subir tu set de datos propio?
7:50
AMP Tech
Рет қаралды 11 М.
How to treat Acne💉
00:31
ISSEI / いっせい
Рет қаралды 108 МЛН
Beat Ronaldo, Win $1,000,000
22:45
MrBeast
Рет қаралды 158 МЛН
IL'HAN - Qalqam | Official Music Video
03:17
Ilhan Ihsanov
Рет қаралды 700 М.
PCA Analysis in Python Explained (Scikit - Learn)
16:11
Ryan & Matt Data Science
Рет қаралды 7 М.
Análisis de Componentes Principales: Maximización de varianza
1:19:08
StatQuest: Principal Component Analysis (PCA), Step-by-Step
21:58
StatQuest with Josh Starmer
Рет қаралды 3 МЛН
Tipos de redes neuronales
7:15
AMP Tech
Рет қаралды 45 М.
Kernel PCA
21:28
IIT Madras - B.S. Degree Programme
Рет қаралды 17 М.
StatQuest: PCA in Python
11:37
StatQuest with Josh Starmer
Рет қаралды 210 М.