AMD MI300與AI到底有沒有搞頭?

Рет қаралды 33,094

Күн бұрын

Пікірлер: 282

@Tech4AllYall Жыл бұрын

果然太久沒上片，說好要加章節結果完全忘記😅 00:00 開場白 02:42 AI training和inferencing 05:21 生成式AI的硬體需求與挑戰 09:00 MI300 vs H100 11:08 Nvidia DGX的通訊技術以及 Network Topology簡介 15:00 MI300的缺點 15:42 MI300失敗了嗎? 18:09 主委加碼淺談Nvidia L40 18:53 系統設計才是王道

@Tech4AllYall Жыл бұрын

另外補充幾點: 09:14表格裡的數字單位是TFLOPs，MI300A的數據是由AMD提供，但是官網上並沒有註明2,507 TFLOPs是在多少的使用率(GPU utilization)之下得出來的數字；H100 SXM5的數字則是取自於Nvidia官方資料如果對於Network Topology有興趣的人可以去Dr. Ian Cutress的影片，裡面講的更詳細 (kzbin.info/www/bejne/bqXIiKmDjbBsb6s) 如果是對Google TPUv4有興趣的人，可以看看他們官方發表的文章，裡面有提到他們客製的OCS通訊設備，用的不是ring bus/mesh/crossbar，而是一個3D甜甜圈(對，你沒看錯就是甜甜圈，正式名稱叫做3D twisted torus)的topology

@楊慎恩 Жыл бұрын

華爾街的笨蛋：好的,搬一台超級電腦來狙擊他的資產~~

@AlertImDK Жыл бұрын

AMD MI300的特色之一就是整合CPU與GPU,可以大幅減少CPU與GPU通訊上的限制,減少硬體資源的浪費,榨乾GPU的性能,雖然MI300沒考慮串聯多個伺服器,但十分有利於中小企業,這正是nVidia比較疏於照顧的市場

@AlertImDK 7 ай бұрын

當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已

@Lovefact331 4 ай бұрын

世界上最強大的超速用的就是amd方案和mi250x。

@JarryLu Жыл бұрын

原本還以為這頻道沒有要繼續經營下去了🥲

@Tech4AllYall Жыл бұрын

別高興得太早喔😇

@bailianqi2698 Жыл бұрын

@@Tech4AllYall 你的意思是還有大的在後邊？

@windholygainsborough3653 Жыл бұрын

我也是這麼以為的，局座去忙工作放棄YT了，沒想到忽然跳出這個推薦影片!!!!!!!

@jaycez3971 Жыл бұрын

Hahaha

@Tech4AllYall Жыл бұрын

哈哈我自己也說不準，不想給大家錯誤的期待好像接下來就會穩定上片，我只能答應大家每次出片都會有一定的品質

@阿綸的全勳學院 Жыл бұрын

講的相當好啊感謝讓我了解到很多之前不知道的東西 ps:我很喜歡你的節目呢不管講解還有語氣表情的表達都很不錯讓我很喜歡繼續看你的影片

@sianghuang7277 Жыл бұрын

終於等到啦！架構型YT唯一支持

@Cdictator Жыл бұрын

第一次听你的节目，感觉做的很好，条理清晰，浅显易懂。赞一个👍!

@gigabytechanz9646 Жыл бұрын

MI300 的目標客戶是中小企業，一般祗用1-4張 GPU 做 fine-tune, 最緊要 VRAM 多! 這卡正好合乎要求！

@farosislee83 Жыл бұрын

这么个啥波一回复居然还有这么多赞？所以微软是小企业哦，甲骨文脸书是小企业哦，连amd为啥没急着做switch都没搞明白就在这儿瞎勾巴扯，mi300首先是要抢inference市场，而不是training

@吳宇紘-p9t Жыл бұрын

啊啊啊爺爺公賣局更新啦希望大大您好好準備頻率不用高沒事的但希望每次更新都很有品質🙏

@winge8197 Ай бұрын

在b站看到搬运的影片，讲的真的很棒特意来yt支持一下❤

@chiishenq Жыл бұрын

局座回歸，期待中~ 我最近也在研究MI300，特別是MI300A型採用UMA ，看到有國外用 APPLE M2 ULTRA 192GB 跑AI訓練模型 C/P值超高，或許AMD 可以開發類似產品不走HBM 改走 DDR5拚記憶體容量

@yaus0527 Жыл бұрын

😂M2 soc2soc沒有比較強對小模型M2 cp高 MI300在大模型比較好

@Tech4AllYall Жыл бұрын

接下來模型只會越來越大、參數越來越多，我們還是不要對單一一個處理器有太大期望😅

@Johnathan-_- Жыл бұрын

確實我用m1 16g記憶體就可以跑1920*1080的stable diffution，統一架構記憶體在ai領域以個人研究個人應用確實很有優勢

@pxl8827 4 ай бұрын

邏輯思考非常縝密，期待下一次高品質的觀點分享

@Flora7489 Ай бұрын

求更新想听听你对后续amd的发展看法

@yrrekad 11 ай бұрын

太清晰了！希望你能多發片！

@legiongun7678 Жыл бұрын

內容十分充實，解開了一些不瞭解的地方，感謝。

@judahxiiiyoung7320 Жыл бұрын

我靠，你終於回來了！你不要走啊！ #好了評論完了可以開始看影片了

@DavidLonelyHK Жыл бұрын

回來了真好, 很喜歡你的分析 👍

@810602jay Жыл бұрын

睽違一年多頻道突然復活了!! 🥰🥰🥰

@陳寶-w3f 7 ай бұрын

天啊我今天才注意到你的新影片

@rw227 Жыл бұрын

邊看邊落淚...終於回來了

@左鹏-j6i 10 ай бұрын

听到过最娓娓道来，系统性能听懂的视频，赞👍

@洪維屏 Жыл бұрын

謝謝您分享您的經歷與見聞，採用深入淺出的舉例，讓我瞭解AI產業相關的聯結，系統整合的重要。

@暗黑的破壞神 Жыл бұрын

感謝講解 , 滿滿的真材實料 !

@MrDoraHo Жыл бұрын

MI300 開發的時候就多是為了科學運算吧主要科學運算的特性跟AI training 有點不同科學運算主要都是做numerical simulation, 都是用Float64居多而且現在的numerical code 主要都是memory bound, 所以不是用的不是CPU上DDR八通道就是GPU上HBM 如果你把MI300跟上面兩點相比一下, 就發現prefect match了

@artnotes Жыл бұрын

好久没看到这人了，嘿嘿，大佬又出来了。不过AI训练一般用Float32，或者NV自己的TensorFloat32（简化精度，保留动态）。推理用INT8比较多。不过LLM这些主要依靠的Attention还是需要用浮点数否说损失比较大（虽然也研究用简化的INT8）。用INT8-INT4 有2个好处一个是计算速度变快对于便携系统来说主要是这个好处。但是对于LLM来说是另外一个好处。就是内存访问量变小了。LLM推理速度一般是哪内存速度限制了，因为权重太多每次推理相当于要把内存都扫描一遍。不过说到训练其实也有2种模式。一个是小模型通常采用内存换速度。也就是在Forward的时候记录所有的数据，在BackProp的时候直接录用FW的数据计算Gradient。不过随着模型变大，要Cache就不太可行了，那么就只能记录部分数据，剩下的重新计算。到了最后只能用速度换内存。也就是不记录任何数据，吧整个结构设计成可逆的。算到FW终点之后，BP的时候完全再反过来随便一遍。这也是LLM常用的模型。所以LLM 非常吃频宽和计算速度。而一般的小模型带上所有的Cache可能也就10G左右。

@w02190219 Жыл бұрын

很棒ㄟ很喜歡這樣的影片說明方式! 很有學習的感覺

@F1ve-seveN Жыл бұрын

等了好久終於出新片了🥺

@EmpressHsiao Жыл бұрын

等很久了!!! 快點!!!

@Tech4AllYall Жыл бұрын

久等啦～

@isthiswhat3961 Жыл бұрын

WOW 歡迎回歸! 還以為你不拍了

@takahirokan Жыл бұрын

感謝分享，每次都能學到很多。之前還以為以後都看不到您的影片了🥲

@Laurence9651 Жыл бұрын

終於回來了！🎉

@linkengyu Жыл бұрын

終於更新了👍

@user-br5wt3hf6y Жыл бұрын

太好了又看到你了你的節目品質很好

@petercandylee Жыл бұрын

NVLink is a connection between the CPUs and GPUs , so between sockets. The Infinity Fabric is many things more as it's build within the CPU/GPU, provides a link between dies and across sockets. Infinity Fabric isn't a kind of hypertransport but a superset of it. NVLink 是 CPU 和 GPU之间的连接，也是插槽之间的连接。 Infinity Fabric (AMD) 具有更多功能，因为它构建在 CPU/GPU 内，提供芯片之间和跨插槽的链接。 Infinity Fabric 不是一种超传输，而是它的超集

@limitli1117 Жыл бұрын

Twitter有人推荐。看完感觉太厉害了。知识量强大。讲述清晰。❤

@yifter4043 Жыл бұрын

太讚了，等這個主題等好久，謝謝你

@kevinlantw Жыл бұрын

其實有點可惜沒有講到關於應用上MI300有多大的門檻要跨這件事。看新聞，就知道所有在做AI的大公司都瘋狂的在搶NVIDIA的AI運算硬體，我都開玩笑說NVIDIA的產量限制了整個人類的進步XD 那為麼有更好的硬體不去用，還要跟人去搶NVIDIA的產品？有原因的嘛～真的光是硬體設計夠優秀是沒有用的，沒辦法把軟體開發環境等整個生態系建立起來，搞得大家用起來門檻很高很麻煩，沒辦法“It just works"，那就是失敗。大部份會去做AI Training的人剛開始入門的時候用就是學的某個框架，之後要大量使用的時候，也都會直覺得待在這個生態系。因為我只是要training model，專注的是思考新的訓練的方法，參數怎麼調等等，不太想花時間在轉換生態系這件事上面。舉個例子，大家用Windows，是生態系的關係，不是因為Windows有多好。Linux即使再好，再安全，再開放而且都能客製化還免費，這跟「一般使用者」沒有什麼關係，他們還是不想花時間在轉換生態系這件事上。再舉個例子，寫程式不就是有個基本的文字編輯器（notepad或vi）跟terminal就好了嗎？幹嘛要用IDE還被綁住？如果今天是學術機構（不像企業有那麼強的時間跟競爭壓力），或有天才型工程師，能不受框架限制把所有硬體都運用自如，那很好啊？！就可以去用MI300或其它的硬體，沒必要被NVIDIA綁架。不過很可惜的是，真正需要大量AI硬體的大企業，他們有時間跟競爭的壓力，他們就是那個會被生態系綁架的那個「一般使用者」。

@stonk5603 Жыл бұрын

你終於回來了等你好久

@張元儒 Жыл бұрын

您回來啦!!!!!!!!!

@Tech4AllYall Жыл бұрын

原來是連爺爺的部分啊

@petercandylee Жыл бұрын

From Tom’s Hardware The MI300 3D design allows for incredible data throughput between the CPU, GPU and memory dies while also allowing the CPU and GPU to work on the same data in memory simultaneously (zero-copy), which saves power, boosts performance, and simplifies programming.

@limitli1117 Жыл бұрын

一直期待您的分享和看法！！英特尔最新 HPC 和 AI 计划的大量更新，包括有关第五代 Emerald Rapids 和未来 Granite Rapids Xeon CPU、Guadi 3加速器、对标Nvidia H100 GPU 的新Max 系列 GPU 基准测试的新信息

@Tech4AllYall Жыл бұрын

Intel純論產品而言的確是非常有趣，但再好的產品如果不能在適當的時機上市，那就難免陷入生不逢時的問題，就像Ice Lake Xeon還有Sapphire Rapids遇到的瓶頸一樣，產品不錯，但原先預想的對手產品早就已經在市場上流通已久，等到上市的時候已經太遲

@samwu8070 Жыл бұрын

很有內容，有吸收到新知。

@dare-to-come-down-ice-bird Жыл бұрын

感動竟然回來了！！！！

@Tech4AllYall Жыл бұрын

我剛剛連你名字一起看，看成還敢回來啊冰鳥

@neil1619 Жыл бұрын

終於等到更新了！

@oggysecond Жыл бұрын

學到很多，影片製作辛苦了🙏

@kev19949a Жыл бұрын

辣個創作者回來了！

@morgan91204 Жыл бұрын

終於回來了有夠感動🥲

@nengkong3071 Жыл бұрын

哇好久没看到更新了

@henry41224 Жыл бұрын

久違的更新

@Kyodouglas Жыл бұрын

終於更新了！

@jerrylee8207 Жыл бұрын

嗚嗚嗚終於等到更新了

@petercandylee Жыл бұрын

如果深入研究 AMD 目前的产品、MI300、其路线图和人工智能领域，人们会意识到它将成为一个重要的参与者。十年前，英特尔在数据中心 CPU 领域的主导地位比 NVDA 在 GPU 领域的主导地位更强，前者为 100%，后者为 85%。 AMD一度濒临破产。英特尔希望AMD能够生存下来，并借钱给AMD，这样就可以避免美国政府的垄断诉讼。如今，AMD 正在像廉价的周日自助餐一样吃英特尔的午餐。硬件、软件和网络是人工智能基础设施的三个主要构建模块。 1. 硬件 MI300 (AMD) 比 AH100 (NVDA) 更先进：更多内存、带宽和 TOPS（每秒万亿次操作）。使用 16 位数学进行的 AMD 和 NVDA 基准比较测试显示了这一优势。 NVDA 通过使用 8 位数学运行相同的测试来谴责它，并显示出更好的结果。 AMD 反驳，NVDA 没有回应。 AMD 小芯片设计和 3D 内存封装比 NVDA 具有固有的硬件优势。另一个重要事实是MI300使用了台积电5/6纳米节点，而AH100则使用了台积电4纳米节点。 AMD可以通过切换到台积电4nm节点来快速超越NVDA。 2、软件毫无疑问，NVDA 在软件方面遥遥领先。 AMD通过收购Xilinx招募了大量软件人才。 AMD 开源方法得到了软件开发商的热烈支持--Microsoft、Meta、AWS、Oracle、PyTorch、Hugging Face……。随着开源人工智能软件的成熟，NVDA 的市场份额将大幅输给 AMD。 3. 网络以太网是数据中心网络的标准，但如果AI集群规模庞大，它的速度会比NVDA的NVLink慢。网络之王正在开发高速版本的以太网来挑战 NVLink。当它到来时，NVDA Networks的优势也将消失。

@花生湯圓-i5n Жыл бұрын

歡迎大哥回歸真的是乾貨滿滿

@handswasher Жыл бұрын

Long time no see ! Missing you !

@planck731 Жыл бұрын

回來了～感動

@陳輝龍-l2e Жыл бұрын

目前超級電腦的CPU連結還是和以前的大型電腦的方式一樣，只是設備更快而已，有機會介紹超級電腦的CPU連結方式嗎？英國的IMS T800是用4面都有一個BUS和其他CPU連結的通訊方式，兩點間的中間CPU是By Pass ，當初看雜誌是這麼介紹，不知有無記錯。

@Tech4AllYall Жыл бұрын

這個還真的要去做點功課，但我的直覺是，這些超級電腦很多設計是不對外揭露的，我們能找到的資料可能不多或是很舊，我可以試著去找找看啦，也蠻有趣的

@陳輝龍-l2e Жыл бұрын

謝謝@@Tech4AllYall

@diss56789 Жыл бұрын

推推優質頻道另外可否講一下ROCm 6呢? AMD是否有持續改善在軟體開發環境上的劣勢呢?

@Tech4AllYall Жыл бұрын

有，這個部分可以參考MosaicAI在六月發佈的消息，他們其實已經使用MI250X一陣子了，簡單來說我自己對ROCm還蠻有信心的，我更擔心的可能是硬體方面，Nvidia未來每年都會推出新的GPU/AI accelerator，AMD不能只透過堆料的作法來跟別人競爭，況且Nvidia光是這幾個月就推出了不少針對AI軟體而做出的更新，老黃不會傻傻的沒有動作讓對方追上

@diss56789 Жыл бұрын

@@Tech4AllYall 了解感謝回覆~

@Steve-tn9ep Жыл бұрын

A great AI101 session. 👍

@lokeung0807 Жыл бұрын

歡迎回來🎉

@philsheu712106 Жыл бұрын

邊看邊落淚...終於回來了+1

@markchen6549 4 ай бұрын

如果是年更的話，差不多是時候了😂😂😂

@johnnytshi 9 ай бұрын

Actually, in LLM, higher memory is way more important. If you have to sync intermediate values, it's a lot slower. So if the chip can hold the entire model, that would be the fastest, with data sharding only.

@amia0328 Жыл бұрын

終於更新了

@LightnessRevant Жыл бұрын

極端的例外： Crisis初代就是直接用未上市的G80晶片做開發平台

@tp27273529 Жыл бұрын

!!!!想說ig跟yt都沒有更新是不是不做了竟然又有影片了!!!

@Tech4AllYall Жыл бұрын

說真的，我即使是之前還有固定在更新影片的時候也都懶得更新ig哈哈哈😆

@sjcabbw Жыл бұрын

SOC, system on chip, 系統一直在被集成一個單一晶片. 所以根本無所謂系統重要或晶片重要 , 因為今天的系統可能就是明天的晶片.

@張硯棠 Жыл бұрын

非常感謝解說如此清楚😀 最近IBM New Analogue Chip看來是很前瞻的設計，是否能講解一下😂 存算合一使是否才是打破馮諾依曼瓶頸？

@drsecu4352 Жыл бұрын

未看先留言支持一下，畢竟下部片不知道要等多久😂

@Tech4AllYall Жыл бұрын

你懂

@unclesam8565 Жыл бұрын

博主分析的关于inference 的有误 MI300x 的推理能力很强主要是每个gpu 有192G vram 大概每个nose 放4个 mi300x 利用infinity fabric 连接可以接近有800G 容量可以舒舒服服跑GPT3类似的模型。mi300 在LLM inference 上性价比完爆H100 并且MI300x 的产能有优势。

@Tech4AllYall Жыл бұрын

數據，尤其是inference都是兩家公司官方的資料，而且這還沒考慮到實際的FLOP utilization。退一萬步來說，真的那麼棒那怎麼大家都去買H100呢😊

@petercandylee Жыл бұрын

There are a couple of reasons why MI300 is not selling 1. It is not ready - it won't be ready until next year 2024. 2. The older versions (MI250, MI100) are not selling well because the supporting software is not mature. But this will change because large software houses Microsoft, Pytorch, and Hugging Face are helping AMD to optimize its software. Large tech companies want to have a second source.

@watergod420 Жыл бұрын

挖賽，這支影片讓我茅塞頓開。不然我就是發佈會台下的那些華爾街笨蛋XD

@madebyaigeng 2 ай бұрын

请问这些知识是什么书上可以学到呢

@ryoushousou Жыл бұрын

終於回來了。我都懷疑您是不是在美國遭遇槍擊案了🤣

@Tech4AllYall Жыл бұрын

I’m the one who knocks 😎

@WenRenChen-y5s Жыл бұрын

這頻道很專業加油

@此名稱無法顯示 14 күн бұрын

有人知道這個頻道還活著嗎？

@mikkeymask361 11 ай бұрын

现在正式发布了，能不能发一期更新？谢谢！

@petercandylee Жыл бұрын

MI300 GPU chiplets share the unified memory. Can they not communicate with each other using the shared memory?

@pincheng9639 Жыл бұрын

等了一年......

@Tech4AllYall Жыл бұрын

真的🫠

@leechen7235 Жыл бұрын

very well articulated

@handswasher Жыл бұрын

16:59 「説真的，就連 nVidia 在設計 Hopper 的時候，也沒預料到生成式 AI 的崛起，不然他絕對不會只給他 80GB 的記憶體」。生活就是這麽種豆得瓜是吧。

@mmo1239 Жыл бұрын

回歸了感動

@林明輝-k8b Жыл бұрын

優質頻道，讚

@小兵-j1r Жыл бұрын

MI300 問題除了串接成一個巨大算力之外他的軟體生態發展晚本質上是沒辦法跟NVIDIA比較的現在所有訓練推理模型預設都是跑TensorFlow以及PYTORCH 在CPU市場也是一樣過去AMD的cpu 只有支援雙路即使他的threads 已經非常非常的龐大但是intel早已經支援八路多路系統最主要差異在於串接後記憶體的容量整個上來在傳輸上面目前並沒有一個比較快的跨晶片傳輸即使是nvlink記憶體延遲仍然十分龐大主要在於要共享資料的時候必須要穿透彼此晶片的cache或者記憶體穿透出去就是慢現在晶片的die與功耗越來越大也許以後單個wafer生產製作成一個晶片的會越來越流行另外就是更大晶圓的生產.

@VGNYuanYuan Жыл бұрын

之前有聽過用M2 Ultra來做成離線使用的AI（LLaMA)，因為他的統一記憶體剛好符合AI需要的大型記憶體

@Tech4AllYall Жыл бұрын

但問題在於這些離線AI模型品質和速度其實跟不上現行商業等級的，而且也不會有人為了可以離線使用AI砸大錢買一台192 GB的M2 Ultra Mac Studio，畢竟現在只要能上網就能免費用ChatGPT等等的免費AI

@小兵-j1r Жыл бұрын

HBM跟UMA完全不是一個等級唯一的好處只有記憶體大但頻寬只有人家的 1/3 ~ 1/5 加上處理單元數量差太多整個加成效應會很大 NVIDIA 先前之所以想買ARM 說穿了也是看中這一點 GPU目前也是需要高性能的CPU相輔相成可惜沒成功～～～

@asddnbn Жыл бұрын

大哥回來啦

@corychan1223 Жыл бұрын

先讚再看

@林先生-s9v Ай бұрын

Hey bro, 很久沒更新了

@samuelyeung03 Жыл бұрын

我有個突發奇想既然nv link頻寬那麼大有沒有可能透過nv switch 增加下級記憶體為不影響性能的情況，大部變數還是儲存在gpu內部，常數全部放在下級記憶體，這樣的話對常數的讀取還會加快。而且可以更改軟體，training的時候隨機鎖定部份變數然後儲存到nv switch上的ddr6 省下內的空間可以放下大一點點的模型雖然應該不會加大很多但再配合大量ddr5應該或許有效當然啦，可行性未知，也會消耗大量電源

@yaus0527 Жыл бұрын

在GH100架構上 NV就是把所有 memory 弄成一個池 Data access可以機過機

@samuelyeung03 Жыл бұрын

@@yaus0527 我的意思是在nv switch上再外掛記憶體

@yaus0527 Жыл бұрын

@@samuelyeung03 沒有好處本身NVLINK 已經是 IO需求極工的晶片還加上Memory 面積會加得很多

@samuelyeung03 Жыл бұрын

等你好久了