👉 Xiperia ofrece consultoría empresarial que transforma datos en conocimiento accionable para alcanzar los objetivos de tu negocio. Conoce más en www.xiperia.com
@aperez691215Ай бұрын
Super recomendado. Excelente pedagogia
@CodigoMaquinaАй бұрын
Gracias. Saludos!!
@ingenieriadedatoscolombia36632 жыл бұрын
Gracias totales Maestro Octavio desde Colombia explicaste en 30 minutos lo que llevo semanas tratando de entender.
@CodigoMaquina2 жыл бұрын
Excelente, me alegra mucho. Saludos!!
@angelbello2753 Жыл бұрын
Gracias miles , más explicado de ahi imposible , excelente tema , la facilidad que le das sin tanto rodeos es genial.... todo se entendio . Felicitaciones!!
@CodigoMaquina Жыл бұрын
@angelbello2753 muchas gracias por tus palabras y un gran año 2024!!!
@brianchuquiruna69596 ай бұрын
muchas gracias por el video, era justo lo que necesitaba
@CodigoMaquinaАй бұрын
Muchas gracias por seguir el contenido del canal!!!
@dskevinperezgarcia Жыл бұрын
Excelente video. Una consulta de la división de los datos en las competiciones de Kaggle. Las competiciones brindan la base de datos de entrenamiento y de prueba. El de prueba se divide en 70% para el leaderboard público y 30% para el privado. Entonces, ¿tengo que asumir que la base de datos de entrenamiento privado es en sí el de prueba y el público es el de validación? Aún así, vi que a partir de el entrenamiento extraen una base de datos de validación.
@CodigoMaquina Жыл бұрын
@kevoperezgarcia1700 no he participado en las competiciones de Kaggle. Sin embargo, por lo que comentas, efectivamente, ese 70% publico de los datos es para ti el 100% y de ahí habría que sacar tus datos de entrenamiento, prueba y validación. Una vez con tu modelo entrenado, me imagino que Kaggle utiliza el 30% privado para determinar el ganador. Mucha suerte en las competiciones!!!
@joselorcas9705 Жыл бұрын
Exelente canal me ha Sido super util
@CodigoMaquina Жыл бұрын
Siempre es un placer leer comentarios así. Gracias!!!
@abrahamsojeda3 жыл бұрын
Muchas gracias por el canal amigo. Cada vídeo que termino me suma un conocimiento invaluable en mi carrera profesional.
@CodigoMaquina3 жыл бұрын
Nos da muchísimo gusto que el canal aporte aunque sea con un granito de arena. Gracias por tomarte el tiempo para escribirnos :)
@JozafatAlvarado9 ай бұрын
Son muy buenos tus videos, he aprendido bastante y se agracede bastante. Me gustaría saber si tienes algún video en el cual muestres como trabajar con estos datos de entrenamiento, prueba y validación. Llevo un tiempo aprendiendo y solo he realizado predicciones con regresión lineal junto con probabilidades. Desde ya gracias nuevamente.
@alf48799 ай бұрын
Cuando ya tengo el modelo entrenado y deseo que me prediga nuevos valores de una nueva base de datos se puede desde pyton o se requiere despliegue?
@marbellaflores45122 жыл бұрын
gracias, me ha ayudado mucho, la información es muy clara!
@CodigoMaquina2 жыл бұрын
Gracias por comentar y por seguir al canal :)
@gabyti61862 жыл бұрын
excelente profesor! muy claro todo!
@CodigoMaquina2 жыл бұрын
Muchas gracias por tu comentario :)
@ljfi3324 Жыл бұрын
Que buenos vídeos, me doy cuenta que "tenía" algunos conocimientos volando, pero con sus vídeos ahora entiendo más cosas, es exageradamente bueno explicando, muchas gracias por compartir su conocimiento! Me surgió una duda, en la explicación menciona que el conjunto de validación se usa si vamos ajustar los hiperparametros. Yo he visto que algunos solo dividen en train y test aunque ajusten hiperparametros y otros que si hacen las 3 divisiones pero solo he visto esto cuando aplican redes neuronales. Nunca he visto que dividan en train, test y validation para un algoritmo de ML, solo para redes neuronales, supongo que si se ha de poder pero no me imagino de momento en que algoritmos se podria hacer, ustedes los ha aplicado en algunos? Si es así en cuales? Gracias por todo!!!!
@CodigoMaquina Жыл бұрын
@ljfi3324 muchas gracias por tus comentarios y por la pregunta. Con respecto a ésta, ciertamente en muchas ocasiones sólo se utilizan los conjuntos de entrenamiento y prueba. Digamos que es lo mínimo aceptable, aunque en realidad, independientemente de la técnica, lo ideal es utilizar los tres conjuntos. También, otra alternativa (y tal vez una mejor alternativa) para evaluar los modelos de machine learning es utilizar validación cruzada (favor de ver nuestro siguiente video kzbin.info/www/bejne/h5_XmWWMjdSjgsk). Gracias por seguir el contenido del canal :)
@guillermosilva15273 жыл бұрын
Gran video crack
@CodigoMaquina3 жыл бұрын
¡¡¡Muchas gracias!!! :)
@mejia4142 жыл бұрын
gracias excelente explicación
@CodigoMaquina2 жыл бұрын
Muchas gracias por ver el canal e interactuar :)
@mejia4142 жыл бұрын
@@CodigoMaquina me ayudo mucho, excelente
@santiagopiedriz46962 жыл бұрын
👏👏 Muy buen video
@CodigoMaquina2 жыл бұрын
Muchas gracias por seguir el contenido del canal!
@felipela2227 Жыл бұрын
Entendí la analogía del estudiante con Train y Test pero no con la de Validación. En todo caso yo diría que la Validación vendría a ser una simulación del examen que te ayuda a ajustarte.
@CodigoMaquina Жыл бұрын
@felipela2227 gracias por seguir el contenido del canal. Más allá de las analogías, lo más importante del conjunto de validación (que nos debemos llevar) es que se utiliza para definir los hiper-parámetros. Feliz año 2024!!!
@raquelevelin68442 жыл бұрын
El dataset tiene que tener la misma cantidad de cada clase a predecir ? en este caso es necesario tener 50 casos de cardíacos y 50 que no?
@CodigoMaquina2 жыл бұрын
Muchas gracias por interactuar en el canal. Con respecto a tu pregunta, idealmente deberíamos tener una proporción similar de datos asociados a cada clase en cada uno de los conjuntos de entrenamiento, prueba y validación. Para esto, normalmente las diferentes librerías de machine learning (que crean automáticamente esos conjuntos) intentan alcanzar ese balance utilizando muestreo aleatorio en sus métodos. Sin embargo, en algunas ocasiones debido al simple contexto de los datos, los datos tienen proporcionalmente una menor cantidad de datos asociados a algunas clases y para eso se realizan procesos especiales de balanceo de clases. Si estos temas son de tu interés, te recomiendo echarle un vistazo a un video que ya tenemos en este canal sobre cómo lidiar con clases desbalanceadas kzbin.info/www/bejne/aHfFppqnpKetb5Y
@grb30078810 ай бұрын
Estoy haciendo un ejercicio donde meto dos csv uno para train y otro para test pero entonces este ultimo solo se utilozaria para hacer las pruebas? Es que no entiendo muy bien algunos conceptos estoy echa bolas😅
@thegrayfox666 Жыл бұрын
¿Qué pasa si nuestro data set incluye fechas? como por ejemplo fechas de ventas ¿Cómo podemos separar nuestros datos sin que sea aleatorio pero mantener la proporción de 80% para los datos train y 20% para los datos test?
@CodigoMaquina Жыл бұрын
Gracias por la pregunta y por interactuar en el canal. En el caso general, cuestiones temporales como fechas y/o horas se trabajan como series de tiempo y tienen un tratamiento diferente para evitar alimentar el modelo con datos del futuro. De hecho, sklearn y otras librerías tienen métodos especiales para hacer la separación de los datos para series de tiempo. Aquí va un vínculo con un poco más de información scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html