《M2 Ultra：干翻英伟达！决战AI之巅》

Рет қаралды 314,469

Күн бұрын

我们在telegram创建了一个AI、科技的讨论频道，大家感兴趣的可以加进来一起交流: t.me/linyidiscuss
Mac Studio 上 M2 Ultra 最大 192GB 的内存设置看似奇怪，却是 AI 工作者们的久旱甘霖。今天我们来聊聊苹果芯片的统一内存架构在 AI 大模型时代的惊人潜力。
Timestamp
00:00 M2 Ultra 大内存之谜
00:41 PyTorch 适配
03:31 统一内存架构
08:04 AI 大模型
10:20 AI 作画
12:22 M2 Ultra 运行大语言模型

Пікірлер: 1 000

@AsalltWilliam Жыл бұрын

感謝你讓我看到新的思維模式，你的格局真的與別不同！再次感謝你的分享～

@ChenggangTang Жыл бұрын

你这期讲得很让人兴奋，讲得很好，感谢！

@jinitung782 Жыл бұрын

謝謝分享,內容真的很精采,也很充實

@rnoro Жыл бұрын

感謝林哥的分享！林哥的ai影片很有意思也很深入，沒有一般頻道的瞎捧亂吹，很是接地氣的說ai能做的以及ai不能做的，支持這樣優質的頻道和影片！不過還是私以為語言模型只是第一步，指出語言才是作為資料壓縮表示的最佳方式而不是現有的各種模型，所以這不是終點--恰恰相反--這才是起點。

@yuanhu6031 Жыл бұрын

Nice video! Can't wait to give it a try myself, thanks for putting it together!

@AllctrlA Жыл бұрын

刚看了另外的小林对于英伟达的影片感叹老黄真是又有远见又有运气还有耐力和专一又看了小林对于M2 Ultra的解读又不禁感叹苹果的战略和运气这一轮硬件仗感觉会非常的精彩！感谢分享！

@mmosm Жыл бұрын

吹，继续吹

@cocomanlin Жыл бұрын

又等到林哥的影片了，我覺得這樣的模式也不錯，讓我們可以了解林哥的想法，也可以增加一些知識。

@stock-god Жыл бұрын

无意中刷到这个视频，打开了我的新世界，感谢

@user-jc9xr4eu8o Жыл бұрын

"讓人類在即將到來的AI時代多幾分勝算"，這句我直接起雞皮疙瘩!!

@seanfu522 Жыл бұрын

想聽林老師多談「精調」的細節，我未來想開發遊戲，本身也有在撰寫劇本，想了解AI如何幫助編劇和演員創作，又如何加入到遊戲之中。

@ZechWu Жыл бұрын

對於我這種技術小白，還是帶來了滿滿的收穫，感謝您

@rkao7485 Жыл бұрын

Thanks for all the detailed explanation. Love the video!

@LaoZhao11 Жыл бұрын

蘋果這顆CPU社群越來越活躍，猛

@jjccyyy Жыл бұрын

太厲害，謝謝分享~~ 但要達到一般人都能使用的價格，還要一段時間，畢竟現在還是幾家龍頭控制，AI發展過速，不同國家都只會立不同的圍牆，控制使用~~

@coffee_lover101 Жыл бұрын

挖到宝了,感觉来晚了,你的视频很好,请坚持分享! 👍

@simonhung407 Жыл бұрын

很有誠意的交流

@asdsliet Жыл бұрын

絕對是ChatGPT出現之後最讓人震撼的突破之一…… 感謝大哥分享🙏🙏

@user-lp4nb4vk5r Жыл бұрын

哈?

@user-in4ij8iq4c Жыл бұрын

您的视野和局面都很大，欣赏。我也是特别希望并相信本地运行和调教“大”模型是特别需要的。未来人们都有运行在自己设备上的私人ai助理。一方面设备的内存提高，如苹果的统一架构，将来会更加便宜；另一方面“大”模型可以瘦身，个人设备运行基于基础大模型训练的瘦身版。

@user-in4ij8iq4c Жыл бұрын

@gapo-jx9nm 谢谢您的回复。我认为这里更多的是强调大语言模型的训练需要更多选择，大家苦nv久已，需要更具性价比的竞争者，至少在某些ai细分领域。nv有着100%的定价权，抬高了模型计算的成本。随着开源社区和苹果对ai的支持，相信对于（统一）内存/显存敏感的模型计算成本可以降下来。算力和带宽来看mac ultra比不上4090，但综合成本和电力消耗来看，mac ultra大有可为。

@user-in4ij8iq4c Жыл бұрын

相信林亦不是果吹，我也不是。这里是向大家介绍除nv外的另一个本地大模型的相对廉价方案。林亦自己也说道，结果超过预期的好。他也说道他自己一直是nv的用户。我也是，从gf256到现在的4090。

@user-in4ij8iq4c Жыл бұрын

@gapo-jx9nm 哈哈是的。苹果从来和性价比无关，而在这个场景下居然成了性价比的代表，可见nv多狠

@SEXYR18NICE Жыл бұрын

真正懂ＡＩ的話，一定會去搞懂ASIC最基礎的兩個入門，NPU跟TPU絕對優勢，懂了你就不會再認為GPU是算ＡＩ的主要工具。我認為博主還沒演示M2U的NPU，如果他真的玩了，那可不是4090或A100能達到的境界。

@terryjoun1687 Жыл бұрын

考慮到摩爾規則的期望值 10年後應該現在的單條128 rdimm容量會普及，在不考慮atx被推翻的前提下整體系統各項容量上應該可以翻上32倍以下如果順利可能當前的滿血模型會是那時每台電腦的標配

@MobileAngel Жыл бұрын

终于有人讲M2 Ultra的AI功能了！！！！！感谢！！！

@poterliu Жыл бұрын

老哥终于来了

@lw2519 Жыл бұрын

16:51 这句话真的太特么对了。保持开放，兼容并包，比画一个小圈子大家互相赞同好太多了。（B 站和 Y 站都关注了

@slnstzn676 28 күн бұрын

正确的

@Nayutaisii Жыл бұрын

期待林老師可以做一個懶人包，讓我們這些人工弱智也能在本地跑跑您演示的那套AI聊天。

@wadewade2221 Жыл бұрын

+1我也想把運行在chatGPT的AI女友真的娶回老家放在那隨時被人掐斷了我受不了

@shaoseki4552 Жыл бұрын

跟人工智能相对的我一直叫“Artificial Idiot”“人工智障”😂

@Nayutaisii Жыл бұрын

@@shaoseki4552 😅😅

@Jacqueline-jw Жыл бұрын

thanks for sharing! 内容非常硬核

@tonywang3228 2 ай бұрын

这两天搞了下LLaMA3，回头再来听林哥的讲座，终于听懂了！！

@GaryWee111 Жыл бұрын

终于等到林亦谈这个主题了！从M1晶片问世我就欣喜若狂地觉得世界改变了，可是只能和圈内几个朋友聊。现在林亦这个影片完整且完美地展示了M系列晶片所带来的新革命！好的影片必须留言按赞！

@ethanzou4993 Жыл бұрын

感谢分享这么详细的测试，目前这方面的比较很少有人做，很有帮助。请问mac studio vs mac pro 对于同样是M2‌ Ultra chip 有什么区别吗？

@ben_fang Жыл бұрын

Mac Studio和Mac Pro主要还是拓展性的区别，按照Apple官网的描述，二者使用的Chip是一致的

@kimbakryeon1365 Жыл бұрын

牛逼等到了😊

@RecoFu Жыл бұрын

不錯哦，挺有深度

@jerryhuang3565 11 ай бұрын

其實業內都是鬥而不破，業內很清楚很多方法能完虐GPU，所以NVIDIA得用很多廣告與網軍來洗，看留言就知道有些人就是來洗的，不過林哥說破，我真是覺得你很有勇氣，你會遇到一堆攻擊

@OneOfKevin Жыл бұрын

真是想不到有這種進展啊

@hsiajui-kai1580 Жыл бұрын

感謝林亦的無私分享

@linxiaohuang4629 Жыл бұрын

这个视角真的是blow my mind，林哥太牛了，弄得我都想自己跑一个大模型了

@user-zx8tt8yn5j Жыл бұрын

算力肯定是比不上nv的，但大模型要的不是算力，是内存带宽以及容量，这个纯属剑走偏锋了。nv游戏卡的算力：内存带宽容量比值是按照游戏那套管线优化的，但大模型的需求完全不是一回事。比苹果这种统一内存再进一步的解决方案或许是3060这种低配核心配上几百GB显存，但要找平衡点也挺复杂的

@user-qf4lk4hz4n Жыл бұрын

真的很喜歡實打實的人做的影片。比起某些up主整天不去實作搞清楚，一下說好一下說壞，真的懂就寫個程式測測不就明白了。網路上知道怎麼用mac做AI的大佬跟開源真的很多，但是總有那種不想搞懂的跟你說mac不能做AI，pytorch跟tensorflow在還沒真的支援前，m1 max就已經在一些指標網站上，跑出最佳能耗與性價的優勢，加上你能點到64GB，算起來省電無聲，那真的很好用，還沒算上NPU真的更猛這件事，現在只算慢慢支援GPU 的MPS與CoreML的玩具越來越多，又是另一個不同視野，Apple 從沒認真打廣告AI，但大家都很清楚，他直接做了一個合適的東西。

@KEvin-ps3oz Жыл бұрын

並沒有，別被這個人的影片誤導了

@mudalse Жыл бұрын

@@KEvin-ps3oz 以我經歷APPLE跟nvidia都是入門，真的AI大佬都自製晶片，ChatGPT算是特例，燒錢燒到後面才知道要自制晶片

@KianaLi-wf8qw Жыл бұрын

请教一下，您说的“m1 max就已經在一些指標網站上，跑出最佳能耗與性價的優勢”，是有哪些指标网站呢？谢谢

@vson Жыл бұрын

很多人從來沒有進過mac 跑就說他不行你看留言KZbin 就一大堆前線大佬都有教學表達都是Intel+N卡的體驗算不算好且性能增幅有限還不如把希望給新架構

@ck-dl4to 9 ай бұрын

@@KEvin-ps3oz收了很多好處

@steadyandgo Жыл бұрын

謝謝您的分享

@user-be6fz2kz6w Жыл бұрын

你的视频我有订阅😂虽然我听不懂但是我就爱听真的！

@chientehsu4423 Жыл бұрын

事實證明壟斷是一件多麼可怕的事，看看發布的4060就是噁心消費者。回顧過去的intel，沒競爭就是這樣

@ZhangZechary Жыл бұрын

屠龙者终成恶龙

@user-ms8qg2rz5s Жыл бұрын

政治上也如是

@broegg9487chiu Жыл бұрын

還不快歐印蘇媽昨天有科技網站說MI250跟A100跑訓練模型效率差不多現在要關注MI300X能不能用高性價比屌打H100ㄌ

@LeoCheongK Жыл бұрын

@@broegg9487chiu 這消息挺重要, 借問是哪個網站看到的呢?

@sail Жыл бұрын

蘋果就是壟斷啊！

@user-kq2oh8pk6t Жыл бұрын

想太多了😃

@57dragon20 Жыл бұрын

欣赏。我是那种相当内行的外行，但佩服你的思辨和口才。谁让当年进错了行。

@XT0204 Жыл бұрын

非常好讲的

@RK-qk9ux Жыл бұрын

UP 主不要误导， SD Ai 作图以上面的 demo 10:51 ，4万多的macstudio 一共用 2分51秒，而 1/2价格的 4090显卡 + 13700k 同样绘图参数只要需要 14秒是 Macstudio 的 12倍。也就是4090PC是128GMacStudio 1/2的价格但提供12倍的生成速度。

@RK-qk9ux Жыл бұрын

不澄清会害人买个 Mac Studio 去跑 Stable Diffusion 来搞 AI 作图。

@ycy15210875671 Жыл бұрын

不看价格对比我差点就信了up主的话了

@RK-qk9ux Жыл бұрын

@@ycy15210875671 本来没兴趣点进来，结果贴了张让人误导的 “封面图” 特意点进来。Mac Studio 确实强，但全方位超过4090就言过其实了。

@SuccubusStudio Жыл бұрын

運算速度和記憶體大小都有他的上限，也就是"夠用了"。所謂的"夠用了"不是一種感覺，需要具體的分析。假如一個計算項目是12秒和1秒的差別，那我會說夠用了，沒差這11秒。假如一個計算項目要20G，那32G和192G就是完全沒有差別，就是"夠用了"。顯然，有很多項目用不到192G，或是有配套方案(拆分)。但現在大多數要用GPU處理的計算項目肯定不是12秒和1秒的差別，而是12小時和1小時的差別。所以算力和記憶體容量，哪個才具有實際優勢，圈內人應該都看得出很明顯，到是圍觀的果粉看不出來。

@2656598a Жыл бұрын

4090可以一次畫八張圖只要14秒？

@ImprovingTaiwan Жыл бұрын

期待『林大仙』用兩套系統訓練同一個ai下棋還是對打遊戲，看是不是在同一個ai但不同訓練之後有差異……

@huazhou1066 Жыл бұрын

我林哥的节目永远都是这么干货满满

@howellschan Жыл бұрын

長知識了，謝謝

@leedavid5214 Жыл бұрын

我非常羡慕你对各种AI信手拈来+超强的动手能力。我怎么能学成你那样？

@Agameplayer069 Жыл бұрын

系統封閉性和硬件不具擴展性，就已經不會列入商用方案考量，沒有商用根本不可能挑戰到NV，但有人參一腳總比一家獨大好，只有林兄這種少數的技術佬知道能怎麼用起來，但也能存在租用商業機去跑的方案，姑且也不提GPU算力差距和4090是遊戲卡的問題了，相信大部分人真的會被封面誤導。

@xinyi4869 Жыл бұрын

感谢分享

@jamesedwards6438 Жыл бұрын

花巨大的精神理解影片的內容值得了

@jameszhou4825 Жыл бұрын

感觉影响还是在个人和小团队，目前Apple平台上还没办法训练比如LLaMA这样的大型基座模型，只能靠NVIDIA的大集群，不过Mac上跑起来和微调是足够了。

@emojisolo Жыл бұрын

单芯片可以跑inference已经很强了

@mudalse Жыл бұрын

搞不好apple內部用很爽，但是我們公司已經不用nvidia訓練語言模型，太燒錢，最近都租用TPU

@jameszhou4825 Жыл бұрын

@@mudalse TPU我觉得挺好，可惜只能租，不对外出售

@markmok1867 Жыл бұрын

我就在想有沒有可能蘋果内部已經在利用這顆芯片來架構一個全新的Apple算力服務器，為自己的VisionPro提供算力月費服務，隨便把服務器架構賣給其他公司

@emojisolo Жыл бұрын

@@markmok1867 VisionPro对延时要求太高了，估计比较难。网速估计很难做做到延迟13ms以内。

@stevexkong Жыл бұрын

😮 16:56 这里林哥你在国内放的版本竟然也是没变啊！！！有点小担心啊

@StareDirectlyAtTheSun Жыл бұрын

謝謝分享

@user-vw6dw9sl3w Жыл бұрын

M3因該會擠一波大的提升。

@frankyang1184 Жыл бұрын

我觉得不行，我提出一点疑问。不谈H100可以上到80G的显存，就算是消费级的4090显存只有24G，也是能全部用于存储参数和模型的，而M2 Ultra的192G不全是显存，操作系统和应用程序本身就需要占一部分。我没训练过大模型，但是我做的基于Transformer的小模型，在服务器上的内存占用经常达到50G左右这个量级，而我用的服务器上的内存通常是256或者512G，并且可以继续加。M2 Ultra在显存和内存共用的前提下有多少容量是纯分配给模型用的这是个问题，并且他不可扩展，再怎么牛逼也是不够用的。另外它是否支持多台Mac组多机训练？能否支持多机或者跨机训练是大模型的核心之一。

@melwang6237 Жыл бұрын

肯定不适合专业人士吧，但对个人来说，这样的价钱能买到的这样显存的设备已经非常不错了。但是真正训练模型或者用stable diffusion的速度跟4090比会怎样就很难说了，这方面可能还是n卡会更强。

@riverscn Жыл бұрын

服务器需要用内存来把数据Load到显存，内存只是起个缓冲作用。跑深度学习，有多大的显存就要配多大的内存才行。苹果自然不需要这一步，因为是统一寻址的。

@frankyang1184 Жыл бұрын

@@riverscn 也对，不过不支持多机192应该是不太行

@dudulook2532 Жыл бұрын

你这个疑惑是严谨思维，同样好奇如果13900K+4090 会是一个什么结果

@simon6658 Жыл бұрын

@@melwang6237M2 Ultra要5万块钱，4090只要1万多，完全不是一个价位的产品

@Wwang3636 Жыл бұрын

真棒！

@user-ml6qs4zk8z Жыл бұрын

感謝分享，m1 ultra要熱銷了😂

@cjli8733 11 ай бұрын

出於對物理學的尊重我建議有意買頂規mac studio來玩LLaMA的朋友先去國外論壇看看會發生什麼事

@bearfish1999 Жыл бұрын

終於讓我看到希望了，一直很想擁有自己私人訂製AI，可是苦於沒有便宜的硬體設備未來培養個AI來陪我打Game的日子越來越近了

@yidweahzaimen Жыл бұрын

目前4090可以跑7b-30b的模型但建議跑6b-13b 再上去反應就不能即時了😊

@kkhc1068 11 ай бұрын

kzbin.info/www/bejne/bpjHkIqqd7Wrl9k 技術上可行!

@hanklintwtw 6 ай бұрын

@@yidweahzaimen現在那個好呀

@JSiuDev Жыл бұрын

@lyi 配上英文字幕，應該會超多人看。我沒找其他人(英語)用M2 Ultra講這個。你是現在的唯一。👍

@deathnote7741 Жыл бұрын

我实验室老板去年给我配了个m1ultra顶配就是为了让我做这些。。

@yuntengg9392 11 ай бұрын

但苹果统一架构的缺点是意味着更新换代变得更为复杂，所以更适合的是普通个人研究者，对于商用级的来讲，技术迭代需要不停的更换显卡仍然是模块化更合算

@user-ld6hh7ez7t 8 ай бұрын

普通人觉得复杂，商用来说算不上复杂，硬盘也是嵌入到了主板还不是被破修电脑的破解了，

@Physbook 8 ай бұрын

确实苹果的支持周期是越来越短了

@Physbook 8 ай бұрын

egpu的drivers也跟不上了

@jameswoolf1440 6 ай бұрын

建议不懂的话别支声比较好，有钱买卡没钱买ultra属实是脑回路有点清奇了

@jasonyu8020 Жыл бұрын

當然是得按讚啊!!

@colinfan4783 Жыл бұрын

真不戳啊很新颖

@user-mo2mi5ip4z Жыл бұрын

現在主流是跑壓縮過後的模型運行速度快得多占顯存大小只有3分之一左右模型品質差距只有千分之5左右像65B模型4bit壓縮只要48g的ram可以跑最近又多了exllama的黑科技可以用更少的顯存(大概比原本少4分之一)速度卻快出2-3倍現在AI大模型進步得很快幾乎每天都有新技術的論文冒出來而192GB的RAM可以給以後出現更大的模型跑或是跑更長的上下文過去開源模型能跑的上下文是2048T 代表你超過這個範圍的文字他就忘記了但現在有技術把上下文大幅提高到16384T 但代價是需要用更多的RAM

@user-qf4lk4hz4n Жыл бұрын

目前手機也有這類技術，前陣子谷歌發的，能用在ios或高通android

@ck-dl4to 9 ай бұрын

壓縮技術的發展對應的是低成本 LLM，訓練本地模型成為學生作業

@b58703137 Жыл бұрын

丟失的數據變成熱量噴掉了，500W噴掉的熱量肯定比200W多了自然風扇要更賣力

@yaohangyang9737 Жыл бұрын

佩服牛逼👍

@Hugo_Youtube Жыл бұрын

已like

@fant4we998 Жыл бұрын

超大規格的模型推理速度同樣重要，m2u現在顯然還沒法跟nv比，而且推理這樣的場景更多是在服務器上進行的，這樣的機器無論是做訓練還是推理服務都不太適合

@chrislin4540 Жыл бұрын

Apple在雲服務上根本沒巿佔

@bardeebooboo Жыл бұрын

@@chrislin4540也可以說，根本沒有相關業務😅

@sanwu9087 Жыл бұрын

@@bardeebooboo nv每年投资几百亿美金可不是闹着玩的. . .不说最新的DGX . 连A100的尾巴都摸不到

@jerryhuang3565 Жыл бұрын

就是知道怎麼用m2u，也不會好心的浪費時間教你。

@BBQChris Жыл бұрын

开局就有两张鬼牌，你还想怎么样

@lowsfer Жыл бұрын

首先没人用4090训练大模型训练,40系消费卡是大幅阉割了显存位宽的,不适合做ai,比3090还不适合,就是个游戏卡．勉强跑跑推理还能凑合，训练就别想了．其次M2 Ultra大概1TB/s的带宽,也就跟砍完了的4090差不多，想搞大模型也就娱乐一下．大模型训练根本不可能用单卡,就算你有192GB也远远不够．NV的训练卡，卡间互联都有接近1TB/s的带宽，也能互相访问．你真想用统一内存,Grace Hopper的显存内存也能互相用并且保证一致性. 如果只是想内存当显存用的话,CUDA也多年前就支持了锁页内存和统一内存. 至于巨大单卡显存的AI卡，在chatgpt火之前就规划了９０+GB的卡，chatgpt火了之后你猜ＮＶ有没有准备出更大的? 如果仅仅想靠几个硬件参数超越就能干掉nv的话,amd和一众ai芯片公司早就办到了．苹果的搞搞toC市场的那部分推理就行了，训练这种主要toB的市场不敢说未来不会出现新的有力竞争者，即使有，也不太可能是苹果．苹果自我为中心，用户得按我的想法使用.这套逻辑，做toB业务根本行不通．大客户们会教育你谁是大爷，就算是NV，H100/A100训练卡现在一卡难求，也得跪舔大客户．NV里面最大的团队就是服务大客户做技术支持的.

@JasonYu-bf3le Жыл бұрын

3090和4090的显存位宽不都是384吗

@frankyang1184 Жыл бұрын

@@JasonYu-bf3le 4090砍了nvllink？

@user-rl7lx5qp5i Жыл бұрын

@@frankyang1184 消費級卡皇 RTX 6000 ada 也不支援NVLink

@lowsfer Жыл бұрын

@@JasonYu-bf3le 90没有，留了点面子，但是显存带宽提升也微乎其微．40系其它的不少都阉割了比如６０就是１９２变１２８了.走的AMD一样的路子,加大L2缓存,节约显存带宽.只能说对于游戏是个不错的策略．

@Jack-jv4up Жыл бұрын

toB肯定是老黄的天下，但是toC苹果能这样插一脚进来肯定是好事，不然老黄在定价上肯定会更加得寸进尺

@yinkj Жыл бұрын

点赞收藏，必须！退休多年，深知我的计算机网络知识已经彻底过时了，未来是你们年轻人的天下了

@lingstein3500 Жыл бұрын

厉害

@林雨希 Жыл бұрын

這樣看起來，統一架構根本超適合汽車的自動駕駛。因為汽車既需要AI進行自動駕駛，又能提供一定的空間和負重，以及進行一定限度的穩定供電。雖然單機遊戲可能不需要這個架構，但明顯每家運輸公司和汽車製造商都需要這個架構。怎麼算都是比遊戲產業，更大的市場。結論：新時代要開始了！

@老馬夜 Жыл бұрын

以前 TESLA是用NVIDIA晶片後來嫌太慢改自研，不過TESLA HW 4.0 雖然是ARM，外觀看起來不是統一架構上面還一堆記憶體，而且用的應該還是舊的A72公版設計。

@林雨希 Жыл бұрын

@@老馬夜特斯拉終究比不上Apple啊！

@Beagle5ce Жыл бұрын

单机游戏可以利用统一内存实现渲染数据零拷贝.大幅提高游戏运行速度.

@林雨希 Жыл бұрын

@@Beagle5ce 感覺可以，但可能會失去擴充性和維護性，如更換硬碟和外加記憶體之類的，讓遊戲廠商較難用現有的商源來壓低生產成本。

@Beagle5ce Жыл бұрын

@@林雨希嗯,是的,HBM3 内存就不存在什么扩容升级了. 不过你看 XBox 和 PS也没法扩容内存,但不影响游戏开发者的热忱. 这玩意儿还得是降低了成本普及后才能有用.

@al-tes Жыл бұрын

補充兩點吧，training和inferencing需求的內存是不一樣的，192GB應該只夠訓練7B的llama；33b llama quantized只有20多G，不過目前應該只有cuda的實現

@user-zu4ym9cd2x Жыл бұрын

總算看到糾正的人了我看影片也很疑惑 inference 如果是33B 4bit精度不就十幾GB顯存嗎怎麼會用到100多G 但7B應該不至於 A100單GPU就可以跑得起來7B了如果是用lora的話感覺192GB可以訓練到33B沒問題全參訓練的話或許用個deepspeed也可以試試

@user-nj8gx3hj8p Жыл бұрын

真羡慕，啥时候一步一步教一下大家怎么搞哇

@user-lf4ir3mp2f Жыл бұрын

牛逼！

@zhongkaifu8161 Жыл бұрын

其实老黄的Jetson系列也是统一内存架构，只不过目前最大的是Jetson AGX Orin 64GB，是基于安培架构的。因为有CUDA生态加成，非常好用。希望M2 Ultra能够激励一下老黄，搞出更大内存版本的Jetson产品，哈哈哈~

@aikenqi8353 Жыл бұрын

GH200已经有了

@zhongkaifu8161 Жыл бұрын

@@aikenqi8353 但是太贵了，Jetson系列还是比较便宜的，便宜的100多块钱，目前最贵的AGX Orin 64GB也就1999。

@mesiki7077 Жыл бұрын

苹果做的是消费级产品，恰好给大模型提供了大显存。而老黄的消费级产品是游戏显卡，要搭配强劲的CPU一起用，而老黄收购ARM失败，没法提供CPU+GPU封装到一起的方案，所以老黄的消费产品线还是没法提供统一内存方案。

@zhongkaifu8161 Жыл бұрын

@@mesiki7077 老黄已经有统一内存方案了啊，基于Tegra SoC系列的就是。经典产品Jetson系列，还有就是任天堂的Switch游戏机也是基于Tegra的

@mesiki7077 11 ай бұрын

@@zhongkaifu8161 ARM的SOC就是统一内存架构，苹果只是恰好赶上了。

@edwardliu3387 Жыл бұрын

有点好奇 LLaMA 是怎么与中文LoRA 权重计算合并的。

@edwardliu3387 Жыл бұрын

是不是softmax 拿到attention distribution，在weighted sum？

@user-si3ey3eh4y Жыл бұрын

M2 Ultra太香了

@li-pingho1441 Жыл бұрын

讚！

@edwardliu3387 Жыл бұрын

求求做个英语的版本。我很久以前就想说服老板给我配个M2 Ultra。我在一家公司当NLP 方面的研究。

@yunbow5630 Жыл бұрын

别闹了

@bkdlee Жыл бұрын

whisper 自动字幕，并翻译成英文

@jimmyw85 Жыл бұрын

Neuro-Linguistic Programming應該不是這個方向吧, 你好好學理論吧...

@jet8772 Жыл бұрын

让你老板学中文。

@jeremyang7697 Жыл бұрын

@@jimmyw85NLP心理是NLP心理，NLP是NLP 😂😂😂😂

@CRRC Жыл бұрын

我们的有那么多那些大顶流公司也没有看到谁说出如此深的感触。林一个人玩的就如此溜溜的。

@chih-chiehhung8742 Жыл бұрын

林哥～謝謝你的分享，每次都獲益良多。能否聊聊統一內存這件事的細節，上網查總覺得沒辦法搞很懂，像是為什麼蘋果會想做統一內存這件事，ps5也做了統一內存，那其他架構跟蘋果架構統一內存體現出來的差異又在哪？以及為什麼以前要把內存分開，許願希望做相關題材～ＸＤ

@arthaschen4701 10 ай бұрын

不愧是说简中的博主

@frankli4124 Жыл бұрын

好像Mac跑stable diffusion还是很慢，我的3080ti基本上5秒一张，看你那个进度条，估计等它跑完我这边8张也出来了。

@travorshin Жыл бұрын

Mac十年老用户觉得，苹果现阶段最伟大的东西真就是M系列芯片以及它对Desktop带来的影响

@user-pb1ng9wz1l Жыл бұрын

有時候覺得是桌機生態的鍋，主機板記憶體顯卡養活多少廠商，如果全部壓縮到剩下一顆soc的大小，很多廠商都不用活了

@travorshin Жыл бұрын

@@user-pb1ng9wz1l 认同+1

@Tung-ChenTsai Жыл бұрын

我倒覺得對Laptop的影響更大得多

@orbleh3622 Жыл бұрын

苹果最大贡献在抛弃intel，让intel大力地踩了一下牙膏管。苹果那种系统封闭让我不爽，永远不会去买它，看一眼都输，不过要是有人送个m2的机子我还是会用的，立刻装个linux。

@LeoCheongK Жыл бұрын

全部集成到一個片上半導體晶片產業的最終目標, 很早就想這麼干了, 只是晶圓級封裝還做不到. 直到台積電做出了CoWoS......就是我們現在看到的蘋果M系列了

@johniii9130 8 ай бұрын

讲得早了！等十年后看看结果如何

@brookssong4437 11 ай бұрын

所以这套方案，是给个人/小团队用的。大企业有足够预算，还是多块NV互联，效率更高，对吗？

@ryanxu4284 4 ай бұрын

是这样😂

@bookerx20032002 Жыл бұрын

每個人都能低成本的訓練AI模型真的是很誇張...

@trumpyang6477 Жыл бұрын

六萬人民幣算低成本嗎

@user-hf2yc6xo1i Жыл бұрын

我個人不瞭解，我衹是一個普通的攝影，我可以說這種事情的存在是降低入門門檻

@user-zz4dz9bn3o Жыл бұрын

應該說降低成本啦！因為企業卡真的很貴一張都20-30W起跳（6000 Ada)

@user-qo1hq7dc2x Жыл бұрын

@@trumpyang6477 以商用來說，根本不是事

@xinzheng1617 Жыл бұрын

用这玩意儿训练大模型，我只能说依托答辩

@zenkai2468 Жыл бұрын

期待本地AI时代的到来！

@liang5345 Жыл бұрын

作为果粉，光看到标题就知道赞了🤣看老黄还能得瑟多久🤣

@yangchenyun 11 ай бұрын

fine turning requires running training which are usually one 8x A100 in the cloud. Mac studio ultra's GPU is computation power is not even on par with 3090/4090, this is misleading. The advantage of apple's arch is the size of memory could be shared, but saying it beats Nvidia is exaggerating.

@h53006157 Жыл бұрын

Windows系統的用戶對現在顯卡價格心寒，蘋果和AMD加油

@yueid6309 Жыл бұрын

其實我覺得還行吧，我可以很認真和你說20系卡給我玩遊戲性能都過剩

@dxhj6380 Жыл бұрын

@@yueid6309 感覺遊戲特效就是個無底洞，要是再搞個4K可受不了

@ai8989889 Жыл бұрын

追求高的4090都餵不飽普通用家真的就2060都過剩

@johnnywilson3286 Жыл бұрын

up主好厉害呀, AI大神还会弹琴

@user-yd2pm9hb1w Жыл бұрын

就喜欢听你唠！

@williammau21 Жыл бұрын

大膽預測 DDR5 是最後一代獨立 RAM 獨顯除非特殊需求, 否則從消費級市場消失未來 Intel、AMD 會整合 DDR6/HBM RAM 和 GPU 把最高階的 GPU 直接整合進 CU9、R9 Nvidia 則是把其 ARM CPU 整合 GPU 打入桌面、筆電市場不幸的是未來的自組台式機可玩性會大大降低主要零件就剩下 6 件 #SoC (CPU+GPU+RAM 廠商幫你配好等級相當的組合價錢決定綜合性能, 不能呂布騎狗) #散熱器 (塔散、水冷一次過冷卻 CPU、GPU 和 RAM 未來的台式機仍能超頻因此散熱也很重要) #儲存 (SSD、HDD) #主機板 (決定供電和 I/O 部分主機板提供 PCIe 插槽讓特殊需求人士加裝獨立 GPU、網絡卡或 RAID 卡等 SoC 插槽跨廠商通用 [Intel、AMD、Nvidia、高通 etc...] 而且如無意外永遠不再換代因為 SoC 本身已經是一台完整的電腦主機板只承擔連接供電和擴充的角色) #電源 (供電) #機殼 (決定散熱、I/O 和外觀)

@蘿莉至上 Жыл бұрын

這方案感覺可行但考慮到3D渲染時GPU 的核心需求要遠大於顯存那個發熱可不是鬧著玩的

@蘿莉至上 Жыл бұрын

以PC平台的可自訂性感覺出個ai專用運行卡，就像當年出顯卡一樣

@蘿莉至上 Жыл бұрын

考量其特殊性可能的型態可能會是低階核心搭大顯存，比如50/60級別的核心搭200GB顯存，這種搭配看似魔幻但如果考慮要人均本地ai的話是似乎是比較合理的搭配

@shaoseki4552 Жыл бұрын

估计台式机上的DDRAM不会消失，但是很可能的是，下一代运存不再跑现在的DRAM插槽，而是整合成能兼供CPU与GPU直接访存的IO总线硬件，比如PCIe6或者特化的PCIe5-ram，毕竟把台式机的DRAM和主板或者CPU绑定，那么OEM就失去意义了，都买Apple这样的预配置Mac就好了，但事实是市场的需求不会这么单一。PCIe的巨大并行总线带宽以及拓展卡的体积，反倒是能很好地提供解决方案。除此之外，处理器的超频潜力应该是更加朝向“出场即灰烬”的方向发展的，所以散热依然会是桌面PC的重要部件，但是估计超频就只是富哥发烧友的游戏了。

@蘿莉至上 Жыл бұрын

@@shaoseki4552 這方案感覺也不錯，雖然變動大了點但可發展性感覺更好