【生成式AI 2023】FrugalGPT: 來看看窮人怎麼用省錢的方式來使用 ChatGPT (上)

Рет қаралды 36,762

Hung-yi Lee

Жыл бұрын

下集： • 【生成式AI 2023】FrugalGPT:...
FrugalGPT: arxiv.org/abs/2305.05176

Пікірлер: 27

@HungyiLeeNTU Жыл бұрын

關於Scorer相關的問題，許多人有疑問，我在影片中沒有講清楚。Scorer在訓練過程中需要一定數量的訓練資料，其蒐集方式是將一些問題投入LLM，然後得到LLM的輸出結果，把輸出結果跟正確答案做比對，得知其是否正確，然後來訓練Scorer。為了節省運算資源，在文章中使用了DistilBERT作為Scorer。然而，這篇文章主要是闡述相關概念，有很多問題尚未謹嚴的討論或處理。例如，文中未詳細探討Scorer所需的訓練資源、所需的訓練資料量、以及在任務A上訓練的Scorer是否適用於任務B等問題。

@rayk5097 Жыл бұрын

我在工作的地方有免費的gpt4, 但是每天只有限使用60次，我也是用這樣的方法。不過有一個缺點就是有時候他的創作性太好，我是用它來寫程式結果他經常會創作一些不存在的function這點真的很困擾。現在我的做法基本上是用它來取代真的寫程式這個步驟把概念放進去讓他幫忙寫，然後再自己做整合，但是真的要call library還是要用Google自己找。

@ansonchang4196 Жыл бұрын

5/9看到這篇paper, 這麼快就看到教授精彩的解說. 感謝!

@pengshancai5973 Жыл бұрын

想请教Hung-yi老师一个问题为什么现在的大model都采用decoder-only的架构而不是encoder-decoder 如果可以想听老师讲讲呀！

@dcvsling Жыл бұрын

我覺得從大多數雲服務都是輸出計價輸入免費的考量來說的話這應該才是最主要的輸出較貴的理由至於為何輸入免費我覺得最合理的理由是任何產品最終的結果都依定要輸出所以在最終階段設下關卡收費很合理而在輸入處要求入場費會降低入場意願大多數的外國網路服務都走向面對體驗與開發者友善的路線所以通常輸入也會比較低或是不用錢我覺得這是我認為可理解且可接受理由

@user-re3yr8nu9w Жыл бұрын

请问如何筛选一下有价值的paper呢？能提供一些思路吗？作者和学校，机构选吗

@user-hr7dy6vg7m 11 ай бұрын

输入的embedding可以并行计算并且可以cache住，所以输入很便宜，但是输出每一步即使用了kv cache，也是需要前向一次的，所以输出成本更高

@codescv 11 ай бұрын

从技术上来说输出比输入贵还是有道理的, 因为decoding需要多少个step只跟输出长度有关, 跟输入长度无关.

@EtherealYuuWriter Жыл бұрын

先跟 openAI 要 2500 可以省一點😂😂

@NierAutomata2B Жыл бұрын

这个验证模组怎么搞出来的，感觉很关键啊

@johnnieyin6981 Жыл бұрын

chatgpt系列限制了大家的研究激情… 感觉这样并不好….. 哎…

@chunheikwok6738 Жыл бұрын

claude 都用它,感覺比gpt4好?

@AIMagician996 Жыл бұрын

一些open的问题，怎么设计scorer或者有没有有效的scorer，那就没法用这个方法了

@billstark9506 4 ай бұрын

第三个方法很容易想到，但是却需要做实验来确定分支结构。

@user-ri9xz1dc6l Жыл бұрын

怎么感觉LLM越来越玄学了，现在的一些prompt改进、模型使用方法改进就像玩游戏写攻略一样，完全靠实验啊😂，李老师您怎么看到这种现象啊

@tl7955 6 ай бұрын

主要是因為chatgpt已經取得一個重要的進展，在繼續研究其他可行架構前一些應用實驗也同樣很有價值（對應用來說），同樣有其他架構出現但Transformer(Chatgpt)的進度實在已經走得太遠了，除非又一個game changer否則應該很難再被注意到

@ma3sphere 9 ай бұрын

经典系统组思维😅

@willy7703 Жыл бұрын

05:03老師沒辦法想到的原因是因為您是有錢仔吧?(逃

@momo-yw6lg Жыл бұрын

5:00那里，暗示自己是有钱人。😂

@eyuchang Жыл бұрын

在把FrugalGPT打成蜂窩前，請仔細檢驗如何訓練一個比GPT4還棒，且便宜的 Evaluator 裁判. 很簡單的一個邏輯問題：如果那裁判那麼厲害又便宜，大家就用那裁判回答問題不就成了嗎？另一個簡單的邏輯問題：甚麼問題是簡單的，甚麼是難得，你能訓練一個判別模組嗎？

@HungyiLeeNTU Жыл бұрын

我認為驗證模組可能可以比生成模型更為簡單，如同 NP 問題可以在多項式時間內被驗證，但其解不一定能在多項式時間內找出。一個具體的例子是，在 instructGPT 的研究中（ arxiv.org/abs/2203.02155 ），用於評估輸出好壞的reward model僅有 6B ，明顯小於 GPT-3 。然而，儘管 GPT-3 的大小遠超 reward model，後者依然能夠有效地指導 GPT-3 的學習和進步。