Datos de Entrenamiento, Validación y Prueba: ¿Cómo crearlos y qué objetivos tienen? Machine Learning

  Рет қаралды 11,522

Codigo Maquina

Codigo Maquina

Күн бұрын

Пікірлер
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en www.xiperia.com
@aperez691215
@aperez691215 Ай бұрын
Super recomendado. Excelente pedagogia
@CodigoMaquina
@CodigoMaquina Ай бұрын
Gracias. Saludos!!
@ingenieriadedatoscolombia3663
@ingenieriadedatoscolombia3663 2 жыл бұрын
Gracias totales Maestro Octavio desde Colombia explicaste en 30 minutos lo que llevo semanas tratando de entender.
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Excelente, me alegra mucho. Saludos!!
@angelbello2753
@angelbello2753 Жыл бұрын
Gracias miles , más explicado de ahi imposible , excelente tema , la facilidad que le das sin tanto rodeos es genial.... todo se entendio . Felicitaciones!!
@CodigoMaquina
@CodigoMaquina Жыл бұрын
@angelbello2753 muchas gracias por tus palabras y un gran año 2024!!!
@brianchuquiruna6959
@brianchuquiruna6959 6 ай бұрын
muchas gracias por el video, era justo lo que necesitaba
@CodigoMaquina
@CodigoMaquina Ай бұрын
Muchas gracias por seguir el contenido del canal!!!
@dskevinperezgarcia
@dskevinperezgarcia Жыл бұрын
Excelente video. Una consulta de la división de los datos en las competiciones de Kaggle. Las competiciones brindan la base de datos de entrenamiento y de prueba. El de prueba se divide en 70% para el leaderboard público y 30% para el privado. Entonces, ¿tengo que asumir que la base de datos de entrenamiento privado es en sí el de prueba y el público es el de validación? Aún así, vi que a partir de el entrenamiento extraen una base de datos de validación.
@CodigoMaquina
@CodigoMaquina Жыл бұрын
@kevoperezgarcia1700 no he participado en las competiciones de Kaggle. Sin embargo, por lo que comentas, efectivamente, ese 70% publico de los datos es para ti el 100% y de ahí habría que sacar tus datos de entrenamiento, prueba y validación. Una vez con tu modelo entrenado, me imagino que Kaggle utiliza el 30% privado para determinar el ganador. Mucha suerte en las competiciones!!!
@joselorcas9705
@joselorcas9705 Жыл бұрын
Exelente canal me ha Sido super util
@CodigoMaquina
@CodigoMaquina Жыл бұрын
Siempre es un placer leer comentarios así. Gracias!!!
@abrahamsojeda
@abrahamsojeda 3 жыл бұрын
Muchas gracias por el canal amigo. Cada vídeo que termino me suma un conocimiento invaluable en mi carrera profesional.
@CodigoMaquina
@CodigoMaquina 3 жыл бұрын
Nos da muchísimo gusto que el canal aporte aunque sea con un granito de arena. Gracias por tomarte el tiempo para escribirnos :)
@JozafatAlvarado
@JozafatAlvarado 9 ай бұрын
Son muy buenos tus videos, he aprendido bastante y se agracede bastante. Me gustaría saber si tienes algún video en el cual muestres como trabajar con estos datos de entrenamiento, prueba y validación. Llevo un tiempo aprendiendo y solo he realizado predicciones con regresión lineal junto con probabilidades. Desde ya gracias nuevamente.
@alf4879
@alf4879 9 ай бұрын
Cuando ya tengo el modelo entrenado y deseo que me prediga nuevos valores de una nueva base de datos se puede desde pyton o se requiere despliegue?
@marbellaflores4512
@marbellaflores4512 2 жыл бұрын
gracias, me ha ayudado mucho, la información es muy clara!
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Gracias por comentar y por seguir al canal :)
@gabyti6186
@gabyti6186 2 жыл бұрын
excelente profesor! muy claro todo!
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por tu comentario :)
@ljfi3324
@ljfi3324 Жыл бұрын
Que buenos vídeos, me doy cuenta que "tenía" algunos conocimientos volando, pero con sus vídeos ahora entiendo más cosas, es exageradamente bueno explicando, muchas gracias por compartir su conocimiento! Me surgió una duda, en la explicación menciona que el conjunto de validación se usa si vamos ajustar los hiperparametros. Yo he visto que algunos solo dividen en train y test aunque ajusten hiperparametros y otros que si hacen las 3 divisiones pero solo he visto esto cuando aplican redes neuronales. Nunca he visto que dividan en train, test y validation para un algoritmo de ML, solo para redes neuronales, supongo que si se ha de poder pero no me imagino de momento en que algoritmos se podria hacer, ustedes los ha aplicado en algunos? Si es así en cuales? Gracias por todo!!!!
@CodigoMaquina
@CodigoMaquina Жыл бұрын
@ljfi3324 muchas gracias por tus comentarios y por la pregunta. Con respecto a ésta, ciertamente en muchas ocasiones sólo se utilizan los conjuntos de entrenamiento y prueba. Digamos que es lo mínimo aceptable, aunque en realidad, independientemente de la técnica, lo ideal es utilizar los tres conjuntos. También, otra alternativa (y tal vez una mejor alternativa) para evaluar los modelos de machine learning es utilizar validación cruzada (favor de ver nuestro siguiente video kzbin.info/www/bejne/h5_XmWWMjdSjgsk). Gracias por seguir el contenido del canal :)
@guillermosilva1527
@guillermosilva1527 3 жыл бұрын
Gran video crack
@CodigoMaquina
@CodigoMaquina 3 жыл бұрын
¡¡¡Muchas gracias!!! :)
@mejia414
@mejia414 2 жыл бұрын
gracias excelente explicación
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por ver el canal e interactuar :)
@mejia414
@mejia414 2 жыл бұрын
@@CodigoMaquina me ayudo mucho, excelente
@santiagopiedriz4696
@santiagopiedriz4696 2 жыл бұрын
👏👏 Muy buen video
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por seguir el contenido del canal!
@felipela2227
@felipela2227 Жыл бұрын
Entendí la analogía del estudiante con Train y Test pero no con la de Validación. En todo caso yo diría que la Validación vendría a ser una simulación del examen que te ayuda a ajustarte.
@CodigoMaquina
@CodigoMaquina Жыл бұрын
@felipela2227 gracias por seguir el contenido del canal. Más allá de las analogías, lo más importante del conjunto de validación (que nos debemos llevar) es que se utiliza para definir los hiper-parámetros. Feliz año 2024!!!
@raquelevelin6844
@raquelevelin6844 2 жыл бұрын
El dataset tiene que tener la misma cantidad de cada clase a predecir ? en este caso es necesario tener 50 casos de cardíacos y 50 que no?
@CodigoMaquina
@CodigoMaquina 2 жыл бұрын
Muchas gracias por interactuar en el canal. Con respecto a tu pregunta, idealmente deberíamos tener una proporción similar de datos asociados a cada clase en cada uno de los conjuntos de entrenamiento, prueba y validación. Para esto, normalmente las diferentes librerías de machine learning (que crean automáticamente esos conjuntos) intentan alcanzar ese balance utilizando muestreo aleatorio en sus métodos. Sin embargo, en algunas ocasiones debido al simple contexto de los datos, los datos tienen proporcionalmente una menor cantidad de datos asociados a algunas clases y para eso se realizan procesos especiales de balanceo de clases. Si estos temas son de tu interés, te recomiendo echarle un vistazo a un video que ya tenemos en este canal sobre cómo lidiar con clases desbalanceadas kzbin.info/www/bejne/aHfFppqnpKetb5Y
@grb300788
@grb300788 10 ай бұрын
Estoy haciendo un ejercicio donde meto dos csv uno para train y otro para test pero entonces este ultimo solo se utilozaria para hacer las pruebas? Es que no entiendo muy bien algunos conceptos estoy echa bolas😅
@thegrayfox666
@thegrayfox666 Жыл бұрын
¿Qué pasa si nuestro data set incluye fechas? como por ejemplo fechas de ventas ¿Cómo podemos separar nuestros datos sin que sea aleatorio pero mantener la proporción de 80% para los datos train y 20% para los datos test?
@CodigoMaquina
@CodigoMaquina Жыл бұрын
Gracias por la pregunta y por interactuar en el canal. En el caso general, cuestiones temporales como fechas y/o horas se trabajan como series de tiempo y tienen un tratamiento diferente para evitar alimentar el modelo con datos del futuro. De hecho, sklearn y otras librerías tienen métodos especiales para hacer la separación de los datos para series de tiempo. Aquí va un vínculo con un poco más de información scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html
K-Vecinos Más Cercanos (KNN) para Clasificación con Python
29:47
Codigo Maquina
Рет қаралды 18 М.
How to treat Acne💉
00:31
ISSEI / いっせい
Рет қаралды 108 МЛН
人是不能做到吗?#火影忍者 #家人  #佐助
00:20
火影忍者一家
Рет қаралды 20 МЛН
REAL or FAKE? #beatbox #tiktok
01:03
BeatboxJCOP
Рет қаралды 18 МЛН
The BEST Terminal Just Launched - Ghostty 👻
6:02
Better Stack
Рет қаралды 11 М.
K-Vecinos Más Cercanos (KNN) para Regresión con Python
23:22
Codigo Maquina
Рет қаралды 6 М.
Árboles de Decisión (decision trees) usando Entropía con Python
41:51
How to treat Acne💉
00:31
ISSEI / いっせい
Рет қаралды 108 МЛН