Estos videos son los únicos en español que explican la arquitectura de Transformers, que buen trabajo hiciste. La única duda que tengo en este video es, en el minuto 8:44 explicas que hay que multiplicar los embedings por Wq para obtener el vector de query lo cual según yo no es cierto, lo mismo con Wk. Según yo la matriz Wq está compuesta por los vectores query, así que solo tienes que tomarte la columna correspondiente. Muchas gracias por el trabajo que haces.
@NechuBM7 ай бұрын
¡Hola Eduardo! Gracias por el mensaje tan positivo y por compartir tus dudas por aquí. La confusión viene de entender bien a qué nos referimos con Wq y Wk. La letra W proviene de 'weights' y hace referencia a los pesos de un modelo. Lo que realmente diferencia a un modelo de otro, además de la arquitectura, son estos pesos que se calculan en la fase de entrenamiento. Una vez que llega una nueva palabra (embedding), necesitamos calcular el vector query para esa palabra. ¿Cómo lo hacemos? Según lo que entiendo que quieres explicar, ese vector ya estaría calculado para todas y cada una de las palabras que contiene el modelo, y simplemente tendríamos que obtener ese vector sin calcularlo. Esta idea es interesante porque ahorraría tiempo de procesamiento, pero el mayor limitante es la gran cantidad de almacenamiento que se necesita para guardar los vectores de Q y de K de todas las palabras. Por lo tanto, lo que hacemos es, para cada nueva palabra (o embedding), multiplicar este vector por la matriz Wq para obtener el vector Q, lo mismo hacemos con K y con V. La otra confusión puede ser por la explicación. Primero explico cómo funcionaría con una única palabra (o vector), pero realmente hacemos multiplicaciones matriciales como vemos en el minuto 14:25, y ahí es donde vamos a 'obtener' el vector de una matriz según su posición, pero primero hemos calculado esa matriz gracias a Wq y Wk.
@cbejar6 ай бұрын
Genial!! Muchas gracias por el contenido
@NechuBM5 ай бұрын
¡Un placer! Nos vemos en los próximos vídeos
@franciscoredondo278110 ай бұрын
Mi felicitación por este trabajo que estas haciendo. Me gustaría saber si este tipo de mecanismos se aplica para predecir una serie temporal y donde poder encontrar algo sobre esta materia. Gracias
@NechuBM9 ай бұрын
Sii, este campo de investigación que se conoce como ‘Time Series Forecasting’ puedes perfectamente hacerlo con Transformers. Particularmente en este campo no tengo mucha experiencia, pero cada vez están saliendo más documentos de investigación e información, aquí te comparto unos enlaces que puedes empezar a explorar y probar: medium.com/intel-tech/how-to-apply-transformers-to-time-series-models-spacetimeformer-e452f2825d2e huggingface.co/blog/autoformer Vienen de HuggingFace y de Medium dos fuentes interesantes de conocimiento y ejemplos. ¡Muchas gracias por el comentario!
@santizuleta62718 ай бұрын
Muy buen contenido para dejar de ver estos modelos como cajas negras mágicas jajaja. Muchas gracias.
@NechuBM8 ай бұрын
El enigma de las cajas negras se está revelando poco a poco 😂