21世纪最重要的发明：LoRA，让每个人都能微调大语言模型！将会如何重写世界规则？（用笔记本就能做大模型）

Рет қаралды 19,669

Күн бұрын

欢迎来到我的频道，在这里我会讲解机器学习、深度学习最经典或者最前沿的模型，同时我还会讲在美国如何生活，如何找工作，如何刷LeetCode，如何快速融入社会。喜欢记得订阅、点赞哦！如果你有什么想要听的，在下面留言吧！
目前的讲解清单：
线性回归 (LR)、逻辑回归 (LogR)、多项式回归 (PR)、Lasso 回归、Ridge 回归、弹性网络 (Elastic Net)、决策树 (DT)、随机森林 (RF)、梯度提升树 (GBT)、XGBoost、LightGBM、CatBoost、支持向量机 (SVM)、朴素贝叶斯 (NB)、K 最近邻 (KNN)、主成分分析 (PCA)、独立成分分析 (ICA)、线性判别分析 (LDA)、t-分布邻近嵌入 (t-SNE)、高斯混合模型 (GMM)、聚类分析 (CA)、K 均值聚类 (K-means)、DBSCAN、HDBSCAN、层次聚类 (HC)、GAN (生成对抗网络)、CGAN、DCGAN、WGAN (Wasserstein GAN)、StyleGAN、CycleGAN、VAE (变分自编码器)、GPT (生成式预训练模型)、BERT、Transformer、LSTM (长短期记忆网络)、GRU (门控循环单元)、RNN (循环神经网络)、CNN (卷积神经网络)、AlexNet、VGG、GoogLeNet、ResNet、MobileNet、EfficientNet、Inception、DeepDream、深度信念网络 (DBN)、自动编码器 (AE)、强化学习 (RL)、Q-learning、SARSA、DDPG、A3C、SAC、时序差分学习 (TD)、Actor-Critic、对抗训练 (Adversarial Training)、梯度下降 (GD)、随机梯度下降 (SGD)、批量梯度下降 (BGD)、Adam、RMSprop、AdaGrad、AdaDelta、Nadam、交叉熵损失函数 (Cross-Entropy Loss)、均方误差损失函数 (Mean Squared Error Loss)、KL 散度损失函数 (KL Divergence Loss)、Hinge 损失函数、感知器 (Perceptron)、RBF 神经网络、Hopfield 网络、Boltzmann 机、深度强化学习 (DRL)、自监督学习 (Self-supervised Learning)、迁移学习 (Transfer Learning)、泛化对抗网络 (GAN)、对抗生成网络 (GAN)、训练生成网络 (TGAN)、CycleGAN、深度学习生成模型 (DLGM)、自动编码器生成对抗网络 (AEGAN)、分布式自编码器 (DAE)、网络激活优化器 (NAO)、自编码器 (Autoencoder)、VQ-VAE、LSTM-VAE、卷积自编码器 (CAE)、GAN 自编码器 (GANAE)、U-Net、深度 Q 网络 (DQN)、双重 DQN (DDQN)、优先回放 DQN (Prioritized Experience Replay DQN)、多智能体 DQN (Multi-agent DQN)、深度确定性策略梯度 (DDPG)、感知器 (Perceptron)、稀疏自编码器 (SAE)、稀疏表示分类 (SRC)、深度置信网络 (DBN)、支持向量机 (SVM)、集成学习 (Ensemble Learning)、随机森林 (Random Forest)、极限梯度提升树 (XGBoost)、AdaBoost、梯度提升机 (Gradient Boosting Machine)、Stacking、贝叶斯优化器 (Bayesian Optimization)、贝叶斯网络 (Bayesian Network)、EM 算法 (Expectation-Maximization Algorithm)、高斯过程 (Gaussian Process)、马尔科夫链蒙特卡洛 (MCMC)、强化学习 (Reinforcement Learning)、无监督学习 (Unsupervised Learning)、半监督学习 (Semi-supervised Learning)、监督学习 (Supervised Learning)、迁移学习 (Transfer Learning)、维数约简 (Dimensionality Reduction)、特征选择 (Feature Selection)、特征提取 (Feature Extraction)、正则化 (Regularization)、标准化 (Normalization)、聚类 (Clustering)、分类 (Classification)、回归 (Regression)、降维 (Dimensionality Reduction)、特征映射 (Feature Mapping)、神经网络 (Neural Network)、神经元 (Neuron)、激活函数 (Activation Function)、损失函数 (Loss Function)、优化器 (Optimizer)、学习率 (Learning Rate)、批次大小 (Batch Size)、迭代次数 (Epoch)、超参数 (Hyperparameter)、模型评估 (Model Evaluation)、交叉验证 (Cross Validation)、混淆矩阵 (Confusion Matrix)、ROC 曲线 (ROC Curve)、AUC 值 (AUC Value)、精确度 (Precision)、召回率 (Recall)、F1 分数 (F1 Score)、模型解释 (Model Interpretability)、特征重要性 (Feature Importance)、局部解释 (Local Explanation)、全局解释 (Global Explanation)、机器学习管道 (Machine Learning Pipeline)、一键生成模型 (AutoML)、超参数优化 (Hyperparameter Tuning)、FFT、拉普拉斯变换、z变换、傅里叶变换、短时傅里叶变换 (STFT)、IIR、FIR、卡尔曼滤波、DIP算法、小波变换

Пікірлер: 59

@awaykangaroo 9 ай бұрын

听不懂，先放着

@phdvlog2024 9 ай бұрын

其实是一个很简单的论文，原始模型是1000*1000，太大了。现在用1000*1和1*1000的两个相乘的矩阵（结果也是1000*1000）来微调，这样就能用很小的参数改变模型原先的结果了。这么小的修改可以在本地电脑上完成，把LLM带入寻常百姓家。

@phdvlog2024 9 ай бұрын

简单来说就是以小博大，加杠杆来改模型，效果很好。把本来个人无法训练的东西变成可以训练的东西。

@TOMATOFAQ 9 ай бұрын

感觉博主有两点非常厉害 1. 剪视频似乎不需要时间，感觉基本上是一次过。李沐剪视频都亲口承认产出一个视频的时间是视频时长的两到四倍 2. 做 PPT 很快。基本上是图加 chatgpt快速搞定。一般人单凭这单薄的内容做不到。但是博主的表达能力极强，所以可以通过语言输出内容。

@TOMATOFAQ 9 ай бұрын

眼睁睁看着博主积累海量粉丝

@phdvlog2024 9 ай бұрын

但我讲的没李沐讲得好，有些地方还是有些混乱，我主要是没时间去详细整理了，其实预先排练一次会有更好的效果

@TOMATOFAQ 9 ай бұрын

@@phdvlog2024 没事。内容到了的时候，听众有理解的义务。

@mingyang6800 8 ай бұрын

李沐是誰？

@bingebinge3722 9 ай бұрын

微软和微软研究院在人工智能机器学习自然语言处理上持续投入给研究社区持续做贡献至少已经20多年了只是以前和商业稍微远一些所以没有太多人注意罢了 20多年前这些领域的很多高影响论文都是他们的。

@jjjabsjwksjxbsujw 8 ай бұрын

大佬實在太高產啦，佩服

@vurtnesaerdna 7 ай бұрын

大佬能讲一些外国前沿领域的研究项目么？研究生改如果选择一个比较前沿的领域做研究，望大佬指教一下！

@lush93yt 8 ай бұрын

12:55 的說法可能有些疑慮。 LoRA 應該不是透過 A, B 兩個 low rank 矩陣來取代原先模型的 weights, 也不是一種壓縮模型的手段。而是透過 A,B 這兩個參數量較少的矩陣來進行 fine-tune。且由於用於 fine-tune 的資料通常都比較少，所以 low rank 以較少參數量進行微調，也可以避免模型 parameter 過於 powerful，進而增進模型成效

@phdvlog2024 8 ай бұрын

不是取代是共同作用

@HuayangYu 9 ай бұрын

讲太好了❤

@JianXinLin-e8v 3 ай бұрын

太厉害了浅显易懂

@zinchen7209 8 ай бұрын

感謝分享，得到一個重要概念的類比，SVD LoRA model,，再到數據壓縮，大學讀線代一直覺得這東西很奇妙，用來處理空間映射問題，但可惜概念上可接受到實作上跟不上XDD 後來就轉換跑道了。感謝UP分享撿回一些大學的記憶

@phdvlog2024 8 ай бұрын

svd和lora原理还是不太一样但想法差不多啦

@ZZsunfire 9 ай бұрын

刚看完林亦发的视频B站大战弱智吧，惊叹用lora居然能在macbook上fine tune qwen1.5，转头就看到博主发了讲解LoRa。点赞

@brozuh2364 9 ай бұрын

这个东西个人快速迭代是好的，但目前我没看到哪个工业界大模型正经这么部署的，我们自己也是模型整个开始微调，lora表现有点问题。

@phdvlog2024 9 ай бұрын

lora只适合语言transformer 不适合图像的

@平-o2n 8 ай бұрын

還以為 lora 這老掉牙的東西迴光返照起死回生，原來有別的東西也叫 lora。😂

@phdvlog2024 8 ай бұрын

😂

@phdvlog2024 8 ай бұрын

我是觉得有点蹭热度的嫌疑就像ssd算法在ssd最火的时候出来实际上和固态硬盘没有任何关系

@dean76105 9 ай бұрын

请问vlog现在AI方向博士是不是很难申请哇。听说至少得一篇顶会一作，感觉本科的话很难。 vlog前面好多视频都看了，感觉讲的挺有启发性的，但因为没有类似coding的demo，有些蛮抽象的概念就。。。挺抽象的😂 但是很感谢vlog的讲解❤

@phdvlog2024 9 ай бұрын

看什么学校有的难有的简单

@dean76105 9 ай бұрын

@@phdvlog2024 我跟我们学校phd聊，感觉至少得有paper；然后看到国内像是mhy招聘，期望都是顶会一座。像是本科生的话，因为本质和科研还离得比较远，只靠自己想搞出一点东西，就感觉无从下手，请问vlog有什么建议嘛？或者可以分享一下这方面的心得体会嘛🥺

@yeyafeixiang 9 ай бұрын

有时间可以讲讲llama-factory吗？

@phdvlog2024 9 ай бұрын

可以

@巫鴻麟-n7t 8 ай бұрын

想請教幾個問題? 1.使用lora 微調後的模型推理速度會比較慢嗎? 因為多了一個path要算。 2. 我對已經使用lora finetune 過的模型再使用lora finetune 一次另一個數據集, 他會產生兩條path 還是重新調整原本那條,這樣我第一次訓練的內容會被蓋掉嗎? 抱歉我是外行,但純看完影片好奇。

@phdvlog2024 8 ай бұрын

会慢，但不会慢多少。已经lora过的模型可能会产生两条路径，也可能会覆盖，取决于你代码怎么写，但两条路径没意义。

@donxu4961 8 ай бұрын

想问问vlog，视频中提到的sd模型加lora的时候，cross attention与lora是如何结合的，是sd和lora两部分输出做cross attention吗？另外最近比较疑惑多模态融合策略的差异，比如cross attention和q former，貌似前者这种更适合两种模态语义更加接近？谢谢❤

@phdvlog2024 8 ай бұрын

SD 和 LoRA 结合：当将 LoRA 应用于 SD 模型时，LoRA 模块会被插入到 transformer 模型的 attention 层中。具体过程如下：在应用 LoRA 之前，SD 模型会首先进行 cross attention，其中文本嵌入作为 key 和 value，图像特征作为 query。应用 LoRA 后，cross attention 的 query, key, 和 value 都会通过 LoRA 模块进行线性变换。这些变换由 LoRA 的低秩矩阵参数化。 LoRA 使得这些线性变换的参数可以被有效微调，而不需要调整原模型的大量参数。因此，SD 和 LoRA 的结合并不是两个部分独立输出再做 cross attention，而是 LoRA 模块直接嵌入到 SD 模型的 cross attention 中，参与到 query, key, 和 value 的变换过程。

@phdvlog2024 8 ай бұрын

多模态融合策略主要有 cross attention 和 Q-Former 两种，分别适用于不同的应用场景： Cross Attention：机制：Cross attention 在 transformer 中用 query 从一个模态（如图像）中提取信息，并用 key 和 value 从另一个模态（如文本）中获取相关信息。适用场景：这种策略特别适用于两个模态之间语义关系较为接近的情况，因为它能够直接在两个模态之间建立细粒度的对应关系。例如，在图像生成任务中，文本描述和生成图像之间的紧密联系使得 cross attention 非常有效。 Q-Former：机制：Q-Former 是一种基于 query 的 transformer 模型，使用查询向量（queries）来从不同模态中提取信息。它可以被看作是一种对 cross attention 的扩展，其中查询向量不仅限于一个模态。适用场景：Q-Former 更适合于处理模态之间语义关系不那么紧密的情况，因为它允许模型通过查询向量来聚合不同模态的信息，从而在多个模态之间建立更加灵活的关联。总结来说，cross attention 更适合语义接近的多模态任务（如图像生成），而 Q-Former 则更适合处理语义关系较弱的多模态任务（如多模态分类）。

@phdvlog2024 8 ай бұрын

有些过于细节的问题问chatgpt就好了，部署起来用现成模型即可，所以有时候我也不是特别清楚具体怎么做的（有些工具集成度太高了，细节我也不懂，也不需要懂，因为我什么都不改）

@derek142 8 ай бұрын

您好请教个问题：谈到训练量的时候两个低秩矩阵的1000*4,1000*4，的总训练量为8000，为什么是加的关系呐？两个低秩矩阵不是相乘才是才能和原来的矩阵是同维的吗？

@phdvlog2024 8 ай бұрын

是啊，一个是1000*4 另一个是 4*1000，所以参数量一共8000，相乘之后变成1,000,000

@phdvlog2024 8 ай бұрын

最终那个1000000是个“稀疏的”矩阵，虽然看起来好像有1000000个内容，但是实际上就是8000个参数

@derek142 8 ай бұрын

@@phdvlog2024 多谢，明白了，期待更多好内容

@JoeyXie 8 ай бұрын

LoRa 微调能去掉原大模型的安全限制吗，比如说现在的开源模型问题色情暴力的问题都会拒绝回答，有没可能微调后去掉这个限制，甚至能成为这些领域的专家

@phdvlog2024 8 ай бұрын

理论上可以

@JoeyXie 8 ай бұрын

@@phdvlog2024 感觉很难，官方不让模型回答这些问题，但是第三方微调又专门灌输这些问题，我感觉模型会很头大，改天我去试验看看

@jasonyu8020 9 ай бұрын

博士好，Lora圖片訓練步驟略可以理解。但大語言的Lora訓練要如何進行?

@phdvlog2024 9 ай бұрын

在transformer上直接并列一个lora块（这东西主要就是优化语言transformer）

@jasonyu8020 9 ай бұрын

@@phdvlog2024 那麼，調整大型LLM的 Lora訓練步驟如何進行?與LLM的Lora樣本如何製作? 這類的樣本維度大致長如何? 是不是要自己收集創建語言風格的Q&A樣本?

@phdvlog2024 9 ай бұрын

@@jasonyu8020 这种就需要去GitHub找开源代码然后问chatgpt了。我目前的模型都没自己写LoRA，都是封装库。现在这个时代你搞不清楚所有的东西，就是别人怎么用你就复现就行了

@idwdt 8 ай бұрын

这个paper是2021年发表的？怎么会现在很流行？

@phdvlog2024 8 ай бұрын

因为这是现在llm微调的重要方法

@phdvlog2024 8 ай бұрын

不是现在很流行是自从发表以来就很流行

@harimekoishi7407 9 ай бұрын

不是，哥們，這個產出速度😬

@phdvlog2024 9 ай бұрын

😂，这是我正常读论文速度的10%不到

@TOMATOFAQ 9 ай бұрын

@@phdvlog2024 产出速度是真的快。做 PPT 仿佛不用时间

@menkiguo7805 9 ай бұрын

感觉lora和adapter有点像

@phdvlog2024 9 ай бұрын

都是即插即用，有空讲讲

@AGI.Trainer 9 ай бұрын

感觉本质上是差不多的，都是冻结预训练网络，训练新增小网络。小网络是并联的UNet的结构，即编码器+解码器的结构。这种方法在CNN的很多论文早就有使用。我认为本文主要贡献应该是引入了更多的数学技巧，来解释为什么这么做。

@phdvlog2024 9 ай бұрын

是的

@pakersmuch3705 7 ай бұрын

赛博朋克了

@phdvlog2024 7 ай бұрын

😂

@無名氏-l1c 9 ай бұрын

我知道你很想到10萬，不過這類不經剪輯、沒有動畫、高知識門檻的內容是很難到10萬的；做得好的話1萬到3萬左右是蠻有可能的。畢竟會中文還想要這樣論文導讀的人群也就那麼多，還很大一部分是知識稅😂（人在看到教育內容會多收藏、訂閱，但播放數明顯低得多的現象）