13 - Auto Atención, Codificador | Transformer

  Рет қаралды 811

Nechu

Nechu

Күн бұрын

Пікірлер: 8
@eduardojuarez544
@eduardojuarez544 7 ай бұрын
Estos videos son los únicos en español que explican la arquitectura de Transformers, que buen trabajo hiciste. La única duda que tengo en este video es, en el minuto 8:44 explicas que hay que multiplicar los embedings por Wq para obtener el vector de query lo cual según yo no es cierto, lo mismo con Wk. Según yo la matriz Wq está compuesta por los vectores query, así que solo tienes que tomarte la columna correspondiente. Muchas gracias por el trabajo que haces.
@NechuBM
@NechuBM 7 ай бұрын
¡Hola Eduardo! Gracias por el mensaje tan positivo y por compartir tus dudas por aquí. La confusión viene de entender bien a qué nos referimos con Wq y Wk. La letra W proviene de 'weights' y hace referencia a los pesos de un modelo. Lo que realmente diferencia a un modelo de otro, además de la arquitectura, son estos pesos que se calculan en la fase de entrenamiento. Una vez que llega una nueva palabra (embedding), necesitamos calcular el vector query para esa palabra. ¿Cómo lo hacemos? Según lo que entiendo que quieres explicar, ese vector ya estaría calculado para todas y cada una de las palabras que contiene el modelo, y simplemente tendríamos que obtener ese vector sin calcularlo. Esta idea es interesante porque ahorraría tiempo de procesamiento, pero el mayor limitante es la gran cantidad de almacenamiento que se necesita para guardar los vectores de Q y de K de todas las palabras. Por lo tanto, lo que hacemos es, para cada nueva palabra (o embedding), multiplicar este vector por la matriz Wq para obtener el vector Q, lo mismo hacemos con K y con V. La otra confusión puede ser por la explicación. Primero explico cómo funcionaría con una única palabra (o vector), pero realmente hacemos multiplicaciones matriciales como vemos en el minuto 14:25, y ahí es donde vamos a 'obtener' el vector de una matriz según su posición, pero primero hemos calculado esa matriz gracias a Wq y Wk.
@cbejar
@cbejar 6 ай бұрын
Genial!! Muchas gracias por el contenido
@NechuBM
@NechuBM 5 ай бұрын
¡Un placer! Nos vemos en los próximos vídeos
@franciscoredondo2781
@franciscoredondo2781 10 ай бұрын
Mi felicitación por este trabajo que estas haciendo. Me gustaría saber si este tipo de mecanismos se aplica para predecir una serie temporal y donde poder encontrar algo sobre esta materia. Gracias
@NechuBM
@NechuBM 9 ай бұрын
Sii, este campo de investigación que se conoce como ‘Time Series Forecasting’ puedes perfectamente hacerlo con Transformers. Particularmente en este campo no tengo mucha experiencia, pero cada vez están saliendo más documentos de investigación e información, aquí te comparto unos enlaces que puedes empezar a explorar y probar: medium.com/intel-tech/how-to-apply-transformers-to-time-series-models-spacetimeformer-e452f2825d2e huggingface.co/blog/autoformer Vienen de HuggingFace y de Medium dos fuentes interesantes de conocimiento y ejemplos. ¡Muchas gracias por el comentario!
@santizuleta6271
@santizuleta6271 8 ай бұрын
Muy buen contenido para dejar de ver estos modelos como cajas negras mágicas jajaja. Muchas gracias.
@NechuBM
@NechuBM 8 ай бұрын
El enigma de las cajas negras se está revelando poco a poco 😂
How Strong Is Tape?
00:24
Stokes Twins
Рет қаралды 96 МЛН
Transformers (how LLMs work) explained visually | DL5
27:14
3Blue1Brown
Рет қаралды 4,4 МЛН
Key Query Value Attention Explained
10:13
Alex-AI
Рет қаралды 21 М.
Attention in transformers, step-by-step | DL6
26:10
3Blue1Brown
Рет қаралды 2 МЛН
5 ALGORITMOS que DEBERÍAS (al menos) conocer
8:26
BettaTech
Рет қаралды 248 М.
Cómo se programa un ORDENADOR CUÁNTICO (bien explicado)
21:56
Antonio Párraga
Рет қаралды 51 М.
ChatGPT o3, sobrepasa el límite humano: ¿es una AGI?
19:05
Oliver Nabani
Рет қаралды 68 М.
How Strong Is Tape?
00:24
Stokes Twins
Рет қаралды 96 МЛН