State of AI Report Review - Part 3
1:17:46
State of AI Report Review - Part 2
1:24:07
State of AI Report Review - Part 1
1:17:13
2024 AI Prediction Review
1:04:28
4 ай бұрын
AI at WWDC 2024
1:08:57
5 ай бұрын
Visualizing 1D Diffusion extra
18:12
Will KANs replace MLPs?
1:32:28
6 ай бұрын
Google IO 2024
1:12:19
6 ай бұрын
GPU Week
59:20
6 ай бұрын
Attention Sinks
1:22:11
8 ай бұрын
Stable diffusion hands on - Part 2
1:12:39
SDXL Turbo Hands on - Part 1
47:49
SDXL Turbo - Part 5
1:14:09
8 ай бұрын
Пікірлер
@eonurk
@eonurk 3 күн бұрын
I think discrete x_k is basically euler approximation, so A, B in the first equations are not the same A and B in the discrete time. Otherwise, I am confused as well haha.
@MdMishfaqAhmed-k4l
@MdMishfaqAhmed-k4l 5 күн бұрын
Hello, is the colab notebook available to play with
@anassbellachehab9821
@anassbellachehab9821 26 күн бұрын
Theyre implicitly doing wavelet analysis. Talking to a neurologist the visual cortex V3 does exactly that. They dont seem to be aware of that. Stéphane Mallat proved that link in the 90s
@DrN007
@DrN007 2 ай бұрын
57:30 It's weird how the LLM doesn't get any feedback/direction from the deduction engine. And I don't get why that impresses you rather than the other way around.
@DrN007
@DrN007 2 ай бұрын
Is the beam search another name for depth-limited BFS?
@DrN007
@DrN007 2 ай бұрын
41:00 LLM is like master yoda. Nothing but an intuition.
@JackRid-k5s
@JackRid-k5s 3 ай бұрын
Nice content just wondering why your views are so low?
@eduardotijerina958
@eduardotijerina958 3 ай бұрын
Really good
@N0W
@N0W 4 ай бұрын
I enjoyed your video! Please check SSDM2024 where I will discuss the use of cGAN for semiconductor modeling!
@rodi4850
@rodi4850 4 ай бұрын
First to like 👍🏻
@rohitjindal124
@rohitjindal124 5 ай бұрын
Thanks dude for making this up was struggling a lot to understand the exact details . Especially considering how difficult nature articles are to understand. Again thanks love the work you guys are doing
@rohitjindal124
@rohitjindal124 4 ай бұрын
Btw guys is there a way I can also join this group?
@MichaelSchwartzJazz
@MichaelSchwartzJazz 5 ай бұрын
I was looking forward to the second one! Thanks Julius and crew!
@nguyenang9087
@nguyenang9087 6 ай бұрын
love this
@fyremaelstrom2896
@fyremaelstrom2896 6 ай бұрын
The blur is due to the L2 loss. The optimal L2 loss will be off the manifold.
@Stealph_Delta_3003
@Stealph_Delta_3003 8 ай бұрын
Part 1??
@WestCoastMachineLearning
@WestCoastMachineLearning 8 ай бұрын
Part 1 is here: kzbin.info/www/bejne/rIClmmNsoZqlq7s
@burton1823
@burton1823 9 ай бұрын
"promo sm"
@AI_ML_DL_LLM
@AI_ML_DL_LLM 9 ай бұрын
Jerry was very noisy, turn off your mic mate
@franciscojoseletterio5968
@franciscojoseletterio5968 9 ай бұрын
If A is not learnt can't you just precompute it?
@WestCoastMachineLearning
@WestCoastMachineLearning 9 ай бұрын
I believe that can be done with S4. When you get to S6/Mamba, you need A_bar, and it depends on A, B, and Delta. Because B and Delta vary based on each input token, you cannot precompute A_bar. It will be different for each input, and it will vary at each time step/token position within each input.
@douglaswilliams937
@douglaswilliams937 9 ай бұрын
This was so helpful! I appreciate how this is partially formatted as a discussion because someone often chimes in with a question I have and then the group comes together to answer it.
@albertmashy8590
@albertmashy8590 9 ай бұрын
Great videos so far
@mingouyang7916
@mingouyang7916 9 ай бұрын
And where are the remaining parts(3,4,5...)?
@mingouyang7916
@mingouyang7916 9 ай бұрын
Thanks for this great talk. Where can we get the material and code(ipynb file) you introduced? Thank you very much!!!
@Bakobiibizo
@Bakobiibizo 9 ай бұрын
I have been trying to figure out how to give a model a temporal position. It is difficult to get the models to reason in complex chains that require longer term planning because every time the model gets queried it resets its memory and is temporally locked. You can do a bit of clever in context learning but its not that easy. I am excited by projects like mamba and large world model that are working to have a built in state manager that can be substituted for an internal clock.
@susettekloska8850
@susettekloska8850 10 ай бұрын
😉 Promo>SM
@JuliusSmith
@JuliusSmith 10 ай бұрын
Thanks for the discussion! Regarding t=4794 or so, I think \sigma(Z) is supposed to function as an output-gate, and D is the "direct path" part of the (A,B,C,D) state-space model (en.wikipedia.org/wiki/State-space_representation) that allows bypassing the dynamics associated with A. Albert Gu said somewhere that the B discretization is not critical. As you probably noticed, they've tried Euler, bilinear transform, and zero-order hold at least - they only differ at high frequencies relative to the sampling rate. I think a part 5 would be great since there was so much time pressure near the end! Also, what about that improved gradient behavior?
@rogerstager8660
@rogerstager8660 10 ай бұрын
Ted later explained to me that the Z is part of the 'gated MLP' implementation. Figure 3 of the paper reminded me that the SSM is combined with the gated MLP. I may have misstated it in the meetup, but I think the idea of the SSM squeezed in the middle of the Gated MLP is the correct description. Yes, I hope to have a session on HIPPO in the future, how that works and how it addresses the gradient problem. Hope to see you there
9 ай бұрын
​@@rogerstager8660He. et. al. 2016 - "Deep Residual Learning for Image Recognition" Table 3 - investigates residual connections in a plain form, partially learned and learned (as you here refer to them as gated MLP) the effect is the same, skip the effects of the core of the block and allow the model to learn small positive contributions rather than misguiding the rest of the depth. I agree with the term gated MLP, but I would not compare them to the MLPs that come after MHA in a transformer.
@faisalIqbal_AI
@faisalIqbal_AI 10 ай бұрын
Thanks
@WestCoastMachineLearning
@WestCoastMachineLearning 10 ай бұрын
Welcome
@DavidAGarciaMontreal
@DavidAGarciaMontreal 11 ай бұрын
I highly recommend watching this video as it explains the mamba architecture in depth: kzbin.info/www/bejne/boLCpaStpbmjjLcsi=B0GkqYdLAtEZ95P6
@humbertomejia3374
@humbertomejia3374 11 ай бұрын
🎯 Key Takeaways for quick navigation: 00:00 🌐 *Introducción al video y presentación del artículo Mamba.* - Presentación del artículo "Linear Time Sequence Modeling with Selective State Spaces" por Albert Goo y Tre da. - Descripción de la motivación detrás del trabajo en el modelo Mamba, destacando las limitaciones de los modelos basados en la arquitectura Transformer. 01:18 🚀 *Problemas con modelos existentes y la necesidad de modelos para secuencias largas.* - Limitaciones de los modelos Transformer en secuencias largas debido a la complejidad cuadrática de la atención propia. - Descripción de intentos previos para abordar el problema de secuencias largas, como Lejre Memory Units y Hippo Recurrent Memory. - Presentación del contexto histórico y la necesidad de modelos que puedan manejar secuencias largas de manera eficiente. 03:37 📊 *Introducción al modelo Mamba y sus características clave.* - Descripción del modelo Mamba como un modelo de espacio de estado selectivo que aborda las limitaciones de modelos anteriores. - Explicación de la capacidad del modelo Mamba para realizar razonamiento basado en el contenido. - Detalles sobre la estructura del modelo, incluyendo el manejo de modalidades discretas y el diseño de un algoritmo paralelo optimizado para hardware. 05:54 🧠 *Evaluación del rendimiento y comparación con modelos Transformer.* - Discusión sobre la eficiencia del modelo Mamba en comparación con los modelos Transformer en términos de rendimiento de inferencia y escalabilidad lineal en la longitud de la secuencia. - Resultados empíricos que muestran el rendimiento del modelo Mamba en diversas modalidades, como lenguaje, audio y genómica. - Comparación de rendimiento con modelos Transformer de igual tamaño y modelos Transformer el doble de su tamaño en preentrenamiento y evaluación posterior. 09:29 🤔 *Preguntas y discusiones adicionales sobre el modelo Mamba.* - Preguntas sobre la comparación con modelos basados en atención de Hugging Face y la integración de Mamba en modelos más pequeños. - Discusión sobre la historia de los modelos de espacio de estado estructurado y su relación con la econometría. - Clarificación sobre el enfoque de entrenamiento de Mamba y la consideración de secuencias largas en el rendimiento del modelo. 13:40 📚 *Antecedentes adicionales sobre modelos de espacio de estado y explicación de Mamba.* - Presentación de antecedentes sobre modelos de espacio de estado, incluidos lejre memory units y hippo recurrent memory. - Explicación de la arquitectura S4 y cómo aborda la representación de secuencias largas mediante la convolución y la descomposición del kernel. - Mención del trabajo de Sasha Rush y Sid Caram Chetti en la "Annotated S4" para una comprensión más profunda del modelo. 16:34 🎯 *Desafíos y soluciones en la modelación de secuencias largas.* - Descripción de los desafíos al modelar secuencias largas, destacando la complejidad cuadrática de los modelos Transformer. - Introducción a enfoques creativos para abordar el problema, como lejre memory units y hippo recurrent memory. - Presentación del modelo S4 como una solución eficiente para la modelación de secuencias largas con estructuras de espacio de estado selectivas. 23:57 🌐 *Modelo de secuencia continua* - Explicación del modelo de espacio de estados continuo. - Transformación de la ecuación diferencial a una recurrencia lineal. - Unrolling del bucle de retroalimentación continua en una recurrencia discreta. 28:10 🔄 *Modelo de convolución* - Descripción del modelo de convolución en el espacio de estados. - Conversión del modelo en una fórmula cerrada para la salida. - Enfoque vectorizado mediante una única convolución para el cálculo de la salida. 34:32 📊 *Resultados y Benchmark* - Presentación de un Benchmark de modelado de secuencias largas. - Rendimiento superior del nuevo modelo en comparación con los baselines. - Destaque de la eficacia del modelo en secuencias de hasta 16,000 pasos. 47:53 🔄 *Resumen de modelos de secuencia convolucional y recurrente.* - Explicación de la vista convolucional y recurrente en el enfoque de atención. - Descripción de la atención como umbral de atención para cada parte de la entrada. - Introducción a la fórmula "a bar" y su papel en la dinámica temporal continua. 49:05 📊 *Desafíos y estructura del modelo de espacio de estado estructurado.* - Desafíos con las dependencias a largo plazo en modelos de espacio de estado. - Limitaciones en la representación del modelo de espacio de estado y problemas computacionales. - Introducción a la fórmula específica para la matriz "a" que aborda los desafíos. 54:40 🚀 *Optimización y desafíos adicionales en el modelo S4.* - Explicación de la limitación de no linealidades en el modelo S4. - Descripción de cómo la convolución es más fácil para el entrenamiento, mientras que la recurrencia es mejor para la inferencia. - Presentación de la solución mediante una fórmula específica para la matriz "a" en el modelo S4. 55:40 🔍 *Desafíos restantes y soluciones en el modelo de espacio de estado estructurado.* - Reconocimiento de los problemas con las dependencias a largo plazo en el modelo de espacio de estado. - Presentación de la fórmula específica para la matriz "a" y su impacto en la capacidad del modelo para abordar las dependencias a largo plazo. - Explicación de cómo la estructura especial de la matriz "a" aborda los desafíos computacionales. 58:09 🧠 *Algoritmo para abordar los desafíos computacionales.* - Descripción de la fórmula específica para la matriz "a" y su relación con la teoría de memorización del hipocampo. - Introducción al algoritmo que permite el cálculo eficiente de la matriz "a" en el modelo de espacio de estado estructurado. - Explicación de cómo el algoritmo reduce el tiempo de cálculo, haciendo que el modelo sea eficiente para secuencias largas. 01:00:53 🌐 *Estructura y evaluación del modelo S4.* - Descripción de la composición del modelo S4 utilizando la matriz "a" derivada de la fórmula específica. - Presentación de la estructura del modelo S4, incluyendo capas de normalización y la capa S4. - Discusión sobre la evaluación del modelo en diversas tareas y modalidades de datos, como imágenes, texto, audio y series temporales. 01:12:12 🧠 *Importancia de la capacidad de memorización en LMU* - La LMU tiene la capacidad de memorizar cualquier patrón dentro del margen de error de su redondeo. - Esta propiedad ofrece la posibilidad de no comenzar desde cero al construir arquitecturas para modelos de lenguaje. - Se destaca la ventaja de aprovechar esta capacidad para la memorización de secuencias en modelos de lenguaje. 01:13:10 🔄 *Comparación entre teoría de control continuo y discreto* - La teoría de control continuo y discreto está bien desarrollada, y la distinción no parece crucial para aplicaciones específicas. - Se plantea la pregunta sobre si, para modelos de lenguaje, el uso de la convolución puede ser tan efectivo como la discretización. - Se menciona la posibilidad de aplicar funciones de convolución similares a las utilizadas en CNN para mejorar el rendimiento en modelos de lenguaje. 01:14:56 🧩 *Cabeza de inducción en modelos de lenguaje Transformer* - Se introduce el concepto de "cabeza de inducción" en modelos de lenguaje Transformer. - La cabeza de inducción aprende patrones específicos, como la asociación frecuente de palabras en secuencias. - Se destaca la importancia de heredar la capacidad de memorización de secuencias para mejorar las predicciones en modelos de lenguaje. 01:19:09 🚀 *Perspectivas sobre el rendimiento de Mamba* - Se menciona la impresionante actuación de Mamba en problemas pequeños en comparación con otros modelos. - A pesar de los recursos limitados de la universidad, los resultados son notables, especialmente en problemas de menor escala. - Se destaca la expectativa positiva sobre la escalabilidad de Mamba y su posible rendimiento en problemas más grandes. Made with HARPA AI
@johnchen5430
@johnchen5430 Жыл бұрын
Amazing video! So to summarize the methods covered: 1. adapter: - add in a new set of weights for fine-tuning; train this adapter 2. prefix-tuning: - add in a new set of weights for fine-tuning; these propagate the whole way through. train this prefix 3. prompt-tuning: - add in a new set of weights for fine-tuning (only in the prompt); train this prefix 4. p-tuning: - like 3, but use an LSTM to generate the soft prompt
@YATENDRA3192
@YATENDRA3192 Жыл бұрын
Great job guys 🎉 need more of these types of conversation
@jaysonp9426
@jaysonp9426 Жыл бұрын
Came interested... Then I saw an unedited zoom call. Have some respect for your audience
@davidli8936
@davidli8936 Жыл бұрын
First time seeing error visualized in such a clear way. Very cool!
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
Thank you! Cheers!
@JadeLight-e9k
@JadeLight-e9k Жыл бұрын
Thank you very much for sharing videos! But I have sth I do not understand. 22:27 step2 is a network with only direct path, and it's easy to understand. However, I wonder why can step3 be regarded as a network with at most 1 layer of attention(as the video says attention heads in step n only saw at most n-1 attention heads). I'm a beginner in deep learning so it's harder for me to get the idea. In my view at step-2 we intercept the output of attention layers and replace with 0, assume that the output is O1. At step-3 we also intercept the output(set it to be O2) and replace with O1. The first question is it seems that we don't do backpropagation to update the parameters of attention layers in step-2 and 3, so I guess O1 and O2 are the same. The second is if we do backpropagation, why the model in step-3 can be considered as model with only one attention layer?
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
Hi, this is a very good question. I think you found a mistake in the explanation in the video. Step 1 saves the attention patterns that will be used in all future steps. It does not calculate the impact of any of the paths. Step 2 records all of the attention outputs for use in the next step (step 3), but it sends zeros to the residual stream. This means that the residual stream only consists of the direct path, so we are measuring the impact of the direct path. Also, the recorded attention outputs are based only on inputs from the direct path, so these are only individual attention head outputs. There are no virtual attention head effects from lower layer attention heads combining with higher layer attention heads. Step 3 records all of the attention outputs for use in the next step (step 4), and it adds the recorded outputs from the previous step (step 2) to the residual stream. As we said above, these recorded attention outputs are the individual attention head impacts. The final output from this step will the combination of the direct path and the individual attention heads. We can compare our results to the results from the previous step (step 2) to see how much the individual attention heads added to the direct path. If our model has only one attention layer, we can't do any more, and we stop here. If our model has at least two attention layers, then step 4 repeats the same process as step 3. It records all of the attention outputs for use in the next step (step 5), and it add the recorded outputs from the previous step (step 3) to the residual stream. The final output from this step will be the combination of the direct path, the individual attention heads, and virtual attention heads from two attention layers. Once again, we can compare our results to the results of the previous step to see how much the two-attention virtual heads added to our output. If our model has at least three attention layers, we can repeat in a step 5. What has become clear to me from writing out the steps like this is that if the model has N attention layers, the final step will be number N+2. The slide incorrectly calls the last step number N. I think the intent was to say the last step gets repeated N times. The actual step numbers will be 3 through N+2.
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
This process of measuring the contribution of different paths only uses predictions at inference time. There is no backpropagation and no update of any weights. I hope this clarification plus the long explanation in the other reply help clarify how the different contributions are calculated.
@JadeLight-e9k
@JadeLight-e9k Жыл бұрын
@@WestCoastMachineLearning Thank you very much for giving a such detailed and clear clarification! Now I understand it.
@-BarathKumarS
@-BarathKumarS Жыл бұрын
What's some of the background of the people in this ML group? Researchers working at universities? PhD studetns? ML engineers at tech companies? Research scientists? Or mix of everything?
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
Yeah, a mix. Probably leans more tech industry than university right now.
@colinmaharaj
@colinmaharaj Жыл бұрын
Hmmm, just subscribed. Let's hope I can understand this, new to ai.
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
Just realized we forgot to include the link to the background notes, so just added that to the description. Feel free to ask questions here, and we'll try to answer them.
@best_relaxa
@best_relaxa Жыл бұрын
I hate this shit so much
@luminouswolf7117
@luminouswolf7117 Жыл бұрын
I heard “it’s autocomplete with extra steps”
@murari-goswami
@murari-goswami Жыл бұрын
Can we get the slides ?
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
We added links to all of the content to the video description. We don't have the slides from the videos, but this content is all contained in the Anthropic paper about transformer circuits: transformer-circuits.pub/2021/framework/index.html
@grantsmith3653
@grantsmith3653 Жыл бұрын
Good presentation fam!
@DED_Search
@DED_Search Жыл бұрын
Can someone post the KZbin link at 53:36 please?
@WestCoastMachineLearning
@WestCoastMachineLearning Жыл бұрын
The Prefix-Tuning video is here: kzbin.info/www/bejne/iqioY6Bsj55sZ9U
@craigturner5575
@craigturner5575 Жыл бұрын
Promo`SM