AMD MI300與AI到底有沒有搞頭?

  Рет қаралды 30,276

科技公賣局

科技公賣局

Күн бұрын

「少林功夫加唱歌跳舞有沒有搞頭?」
從觀眾的反應看來似乎是沒搞頭的
但是這絕對不是這個概念本身的問題,而是因為五師兄跟大師兄只練過功夫
你叫他來練唱歌跳舞,實在是太勉強了。
同樣的,MI300加上AI,這個概念聽起來完全沒問題,
但是根據市場的反應來看,怎麼好像叫好不叫座呢?....
影片章節:
00:00 開場白
02:42 AI training和inferencing
05:21 生成式AI的硬體需求與挑戰
09:00 MI300 vs H100
11:08 Nvidia DGX的通訊技術以及 Network Topology簡介
15:00 MI300的缺點
15:42 MI300失敗了嗎?
18:09 主委加碼淺談Nvidia L40
18:53 系統設計才是王道

Пікірлер: 276
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
果然太久沒上片,說好要加章節結果完全忘記😅 00:00 開場白 02:42 AI training和inferencing 05:21 生成式AI的硬體需求與挑戰 09:00 MI300 vs H100 11:08 Nvidia DGX的通訊技術以及 Network Topology簡介 15:00 MI300的缺點 15:42 MI300失敗了嗎? 18:09 主委加碼淺談Nvidia L40 18:53 系統設計才是王道
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
另外補充幾點: 09:14表格裡的數字單位是TFLOPs,MI300A的數據是由AMD提供,但是官網上並沒有註明2,507 TFLOPs是在多少的使用率(GPU utilization)之下得出來的數字;H100 SXM5的數字則是取自於Nvidia官方資料 如果對於Network Topology有興趣的人可以去Dr. Ian Cutress的影片,裡面講的更詳細 (kzbin.info/www/bejne/bqXIiKmDjbBsb6s) 如果是對Google TPUv4有興趣的人,可以看看他們官方發表的文章,裡面有提到他們客製的OCS通訊設備,用的不是ring bus/mesh/crossbar,而是一個3D甜甜圈(對,你沒看錯就是甜甜圈,正式名稱叫做3D twisted torus)的topology
@user-ux7uj6iz7g
@user-ux7uj6iz7g 9 ай бұрын
華爾街的笨蛋:好的,搬一台超級電腦來狙擊他的資產~~
@user-mm7ot5zq2c
@user-mm7ot5zq2c 8 ай бұрын
AMD MI300的特色之一就是整合CPU與GPU,可以大幅減少CPU與GPU通訊上的限制,減少硬體資源的浪費,榨乾GPU的性能,雖然MI300沒考慮串聯多個伺服器,但十分有利於中小企業,這正是nVidia比較疏於照顧的市場
@user-mm7ot5zq2c
@user-mm7ot5zq2c Ай бұрын
當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已
@JarryLu
@JarryLu 10 ай бұрын
原本還以為這頻道沒有要繼續經營下去了🥲
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
別高興得太早喔😇
@bailianqi2698
@bailianqi2698 10 ай бұрын
@@Tech4AllYall 你的意思是還有大的在後邊?
@windholygainsborough3653
@windholygainsborough3653 10 ай бұрын
我也是這麼以為的,局座去忙工作放棄YT了,沒想到忽然跳出這個推薦影片!!!!!!!
@jaycez3971
@jaycez3971 10 ай бұрын
Hahaha
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
哈哈 我自己也說不準,不想給大家錯誤的期待好像接下來就會穩定上片,我只能答應大家每次出片都會有一定的品質
@Cdictator
@Cdictator 10 ай бұрын
第一次听你的节目,感觉做的很好,条理清晰,浅显易懂。赞一个👍!
@user-ir2sy9ut1e
@user-ir2sy9ut1e 10 ай бұрын
講的相當好啊 感謝 讓我了解到很多之前不知道的東西 ps:我很喜歡你的節目呢 不管講解還有語氣表情的表達都很不錯 讓我很喜歡繼續看你的影片
@sianghuang7277
@sianghuang7277 10 ай бұрын
終於等到啦!架構型YT唯一支持
@DavidLonelyHK
@DavidLonelyHK 10 ай бұрын
回來了真好, 很喜歡你的分析 👍
@yrrekad
@yrrekad 4 ай бұрын
太清晰了!希望你能多發片!
@user-dw9tk6vh8f
@user-dw9tk6vh8f 9 ай бұрын
謝謝您分享您的經歷與見聞,採用深入淺出的舉例,讓我瞭解AI產業相關的聯結,系統整合的重要。
@user-it7ds3px6b
@user-it7ds3px6b 10 ай бұрын
感謝講解 , 滿滿的真材實料 !
@legiongun7678
@legiongun7678 9 ай бұрын
內容十分充實,解開了一些不瞭解的地方,感謝。
@takahirokan
@takahirokan 9 ай бұрын
感謝分享,每次都能學到很多。之前還以為以後都看不到您的影片了🥲
@user-on9uk7mi6v
@user-on9uk7mi6v 10 ай бұрын
啊啊啊 爺爺公賣局更新啦 希望大大您好好準備 頻率不用高沒事的 但希望每次更新都很有品質🙏
@yifter4043
@yifter4043 10 ай бұрын
太讚了,等這個主題等好久,謝謝你
@F1ve-seveN
@F1ve-seveN 9 ай бұрын
等了好久 終於出新片了🥺
@810602jay
@810602jay 10 ай бұрын
睽違一年多 頻道突然復活了!! 🥰🥰🥰
@w02190219
@w02190219 9 ай бұрын
很棒ㄟ 很喜歡這樣的影片說明方式! 很有學習的感覺
@isthiswhat3961
@isthiswhat3961 9 ай бұрын
WOW 歡迎回歸! 還以為你不拍了
@gigabytechanz9646
@gigabytechanz9646 9 ай бұрын
MI300 的目標客戶是中小企業,一般祗用1-4張 GPU 做 fine-tune, 最緊要 VRAM 多! 這卡正好合乎要求!
@farosislee83
@farosislee83 6 ай бұрын
这么个啥波一回复居然还有这么多赞?所以微软是小企业哦,甲骨文脸书是小企业哦,连amd为啥没急着做switch都没搞明白就在这儿瞎勾巴扯,mi300首先是要抢inference市场,而不是training
@user-ql6jm6vt4i
@user-ql6jm6vt4i 22 күн бұрын
天啊 我今天才注意到你的新影片
@lokeung0807
@lokeung0807 10 ай бұрын
歡迎回來🎉
@oggysecond
@oggysecond 10 ай бұрын
學到很多,影片製作辛苦了🙏
@linkengyu
@linkengyu 9 ай бұрын
終於更新了👍
@rw227
@rw227 10 ай бұрын
邊看邊落淚...終於回來了
@morgan91204
@morgan91204 10 ай бұрын
終於回來了 有夠感動🥲
@Laurence9651
@Laurence9651 9 ай бұрын
終於回來了!🎉
@neil1619
@neil1619 10 ай бұрын
終於等到更新了!
@planck731
@planck731 10 ай бұрын
回來了~感動
@user-sm1uq7nx1f
@user-sm1uq7nx1f 10 ай бұрын
歡迎大哥回歸 真的是乾貨滿滿
@EmpressHsiao
@EmpressHsiao 10 ай бұрын
等很久了!!! 快點!!!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
久等啦~
@user-vq7dw6py9d
@user-vq7dw6py9d 4 ай бұрын
听到过最娓娓道来,系统性能听懂的视频,赞👍
@user-br5wt3hf6y
@user-br5wt3hf6y 9 ай бұрын
太好了又看到你了 你的節目品質很好
@samwu8070
@samwu8070 9 ай бұрын
很有內容,有吸收到新知。
@chiishenq
@chiishenq 10 ай бұрын
局座回歸,期待中~ 我最近也在研究MI300,特別是MI300A型採用UMA , 看到有國外用 APPLE M2 ULTRA 192GB 跑AI訓練模型 C/P值超高,或許AMD 可以開發類似產品 不走HBM 改走 DDR5拚記憶體容量
@yaus0527
@yaus0527 10 ай бұрын
😂M2 soc2soc沒有比較強 對小模型M2 cp高 MI300在大模型比較好
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
接下來模型只會越來越大、參數越來越多,我們還是不要對單一一個處理器有太大期望😅
@Johnathan-_-
@Johnathan-_- 10 ай бұрын
確實 我用m1 16g記憶體就可以跑1920*1080的stable diffution,統一架構記憶體在ai領域以個人研究 個人應用確實很有優勢
@Kyodouglas
@Kyodouglas 10 ай бұрын
終於更新了!
@henry41224
@henry41224 10 ай бұрын
久違的更新
@limitli1117
@limitli1117 9 ай бұрын
Twitter有人推荐。看完感觉太厉害了。知识量强大。讲述清晰。❤
@jerrylee8207
@jerrylee8207 10 ай бұрын
嗚嗚嗚 終於等到更新了
@amia0328
@amia0328 10 ай бұрын
終於更新了
@Steve-tn9ep
@Steve-tn9ep 10 ай бұрын
A great AI101 session. 👍
@MrDoraHo
@MrDoraHo 9 ай бұрын
MI300 開發的時候就多是為了科學運算吧 主要科學運算的特性跟AI training 有點不同 科學運算主要都是做numerical simulation, 都是用Float64居多 而且現在的numerical code 主要都是memory bound, 所以不是用的不是CPU上DDR八通道就是GPU上HBM 如果你把MI300跟上面兩點相比一下, 就發現prefect match了
@dare-to-come-down-ice-bird
@dare-to-come-down-ice-bird 10 ай бұрын
感動 竟然回來了!!!!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
我剛剛連你名字一起看,看成還敢回來啊冰鳥
@nengkong3071
@nengkong3071 9 ай бұрын
哇 好久没看到更新了
@stonk5603
@stonk5603 10 ай бұрын
你終於回來了 等你好久
@user-zs6rm1bd2h
@user-zs6rm1bd2h 10 ай бұрын
這頻道很專業 加油
@mmo1239
@mmo1239 10 ай бұрын
回歸了 感動
@user-tn3kj3id8n
@user-tn3kj3id8n 9 ай бұрын
非常感謝解說如此清楚😀 最近IBM New Analogue Chip看來是很前瞻的設計,是否能講解一下😂 存算合一使是否才是打破馮諾依曼瓶頸?
@user-oc9is4ml4e
@user-oc9is4ml4e 10 ай бұрын
優質頻道,讚
@philsheu712106
@philsheu712106 9 ай бұрын
邊看邊落淚...終於回來了+1
@handswasher
@handswasher 10 ай бұрын
Long time no see ! Missing you !
@judahxiiiyoung7320
@judahxiiiyoung7320 9 ай бұрын
我靠,你終於回來了!你不要走啊! #好了評論完了可以開始看影片了
@drsecu4352
@drsecu4352 9 ай бұрын
未看先留言支持一下,畢竟下部片不知道要等多久😂
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
你懂
@artnotes
@artnotes 9 ай бұрын
好久没看到这人了,嘿嘿,大佬又出来了。 不过AI训练一般用Float32, 或者NV自己的TensorFloat32(简化精度,保留动态)。推理用INT8比较多。不过LLM这些主要依靠的Attention还是需要用浮点数否说损失比较大(虽然也研究用简化的INT8)。用INT8-INT4 有2个好处 一个是计算速度变快对于便携系统来说主要是这个好处。但是对于LLM来说是另外一个好处。就是 内存访问量变小了。LLM推理速度一般是哪内存速度限制了,因为权重太多每次推理相当于要把内存都扫描一遍。 不过说到训练其实也有2种模式。一个是小模型通常采用 内存换速度。也就是在Forward的时候记录所有的数据,在BackProp的时候直接录用FW的数据计算Gradient。不过随着模型变大,要Cache就不太可行了,那么就只能记录部分数据,剩下的重新计算。 到了最后 只能用速度换内存。也就是不记录任何数据,吧整个结构设计成可逆的。算到FW终点之后,BP的时候完全再反过来随便一遍。这也是LLM常用的模型。所以LLM 非常吃频宽和计算速度。而一般的小模型带上所有的Cache可能也就10G左右。
@BKmvLog
@BKmvLog 9 ай бұрын
辣個創作者回來了!
@user-xk4xf1rf5m
@user-xk4xf1rf5m 10 ай бұрын
您回來啦!!!!!!!!!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
原來是連爺爺的部分啊
@Baliyoho
@Baliyoho 10 ай бұрын
強勢回歸!
@asddnbn
@asddnbn 10 ай бұрын
大哥回來啦
@corychan1223
@corychan1223 10 ай бұрын
先讚再看
@user-cb6tg8xl9q
@user-cb6tg8xl9q 10 ай бұрын
等好久了
@leechen7235
@leechen7235 9 ай бұрын
very well articulated
@petercandylee
@petercandylee 9 ай бұрын
NVLink is a connection between the CPUs and GPUs , so between sockets. The Infinity Fabric is many things more as it's build within the CPU/GPU, provides a link between dies and across sockets. Infinity Fabric isn't a kind of hypertransport but a superset of it. NVLink 是 CPU 和 GPU之间的连接,也是插槽之间的连接。 Infinity Fabric (AMD) 具有更多功能,因为它构建在 CPU/GPU 内,提供芯片之间和跨插槽的链接。 Infinity Fabric 不是一种超传输,而是它的超集
@samuelyeung03
@samuelyeung03 10 ай бұрын
等你好久了
@petercandylee
@petercandylee 9 ай бұрын
From Tom’s Hardware The MI300 3D design allows for incredible data throughput between the CPU, GPU and memory dies while also allowing the CPU and GPU to work on the same data in memory simultaneously (zero-copy), which saves power, boosts performance, and simplifies programming.
@yaus0527
@yaus0527 10 ай бұрын
回來了🎉🎉
@limitli1117
@limitli1117 7 ай бұрын
一直期待您的分享和看法!!英特尔最新 HPC 和 AI 计划的大量更新,包括有关第五代 Emerald Rapids 和未来 Granite Rapids Xeon CPU、Guadi 3加速器、对标Nvidia H100 GPU 的新Max 系列 GPU 基准测试的新信息
@Tech4AllYall
@Tech4AllYall 7 ай бұрын
Intel純論產品而言的確是非常有趣,但再好的產品如果不能在適當的時機上市,那就難免陷入生不逢時的問題,就像Ice Lake Xeon還有Sapphire Rapids遇到的瓶頸一樣,產品不錯,但原先預想的對手產品早就已經在市場上流通已久,等到上市的時候已經太遲
@ChihMinChao
@ChihMinChao 10 ай бұрын
重磅回歸
@kevinlantw
@kevinlantw 9 ай бұрын
其實有點可惜沒有講到關於應用上MI300有多大的門檻要跨這件事。 看新聞,就知道所有在做AI的大公司都瘋狂的在搶NVIDIA的AI運算硬體,我都開玩笑說NVIDIA的產量限制了整個人類的進步XD 那為麼有更好的硬體不去用,還要跟人去搶NVIDIA的產品? 有原因的嘛~ 真的光是硬體設計夠優秀是沒有用的,沒辦法把軟體開發環境等整個生態系建立起來,搞得大家用起來門檻很高很麻煩,沒辦法“It just works",那就是失敗。大部份會去做AI Training的人剛開始入門的時候用就是學的某個框架,之後要大量使用的時候,也都會直覺得待在這個生態系。因為我只是要training model,專注的是思考新的訓練的方法,參數怎麼調等等,不太想花時間在轉換生態系這件事上面。舉個例子,大家用Windows,是生態系的關係,不是因為Windows有多好。Linux即使再好,再安全,再開放而且都能客製化還免費,這跟「一般使用者」沒有什麼關係,他們還是不想花時間在轉換生態系這件事上。再舉個例子,寫程式不就是有個基本的文字編輯器(notepad或vi)跟terminal就好了嗎?幹嘛要用IDE還被綁住? 如果今天是學術機構(不像企業有那麼強的時間跟競爭壓力),或有天才型工程師,能不受框架限制把所有硬體都運用自如,那很好啊?!就可以去用MI300或其它的硬體,沒必要被NVIDIA綁架。不過很可惜的是,真正需要大量AI硬體的大企業,他們有時間跟競爭的壓力,他們就是那個會被生態系綁架的那個「一般使用者」。
@ryoushousou8774
@ryoushousou8774 9 ай бұрын
終於回來了。我都懷疑您是不是在美國遭遇槍擊案了🤣
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
I’m the one who knocks 😎
@petercandylee
@petercandylee 9 ай бұрын
MI300 GPU chiplets share the unified memory. Can they not communicate with each other using the shared memory?
@diss56789
@diss56789 6 ай бұрын
推推 優質頻道 另外可否講一下ROCm 6呢? AMD是否有持續改善在軟體開發環境上的劣勢呢?
@Tech4AllYall
@Tech4AllYall 6 ай бұрын
有,這個部分可以參考MosaicAI在六月發佈的消息,他們其實已經使用MI250X一陣子了,簡單來說我自己對ROCm還蠻有信心的,我更擔心的可能是硬體方面,Nvidia未來每年都會推出新的GPU/AI accelerator,AMD不能只透過堆料的作法來跟別人競爭,況且Nvidia光是這幾個月就推出了不少針對AI軟體而做出的更新,老黃不會傻傻的沒有動作讓對方追上
@diss56789
@diss56789 6 ай бұрын
@@Tech4AllYall 了解 感謝回覆~
@petercandylee
@petercandylee 6 ай бұрын
如果深入研究 AMD 目前的产品、MI300、其路线图和人工智能领域,人们会意识到它将成为一个重要的参与者。 十年前,英特尔在数据中心 CPU 领域的主导地位比 NVDA 在 GPU 领域的主导地位更强,前者为 100%,后者为 85%。 AMD一度濒临破产。 英特尔希望AMD能够生存下来,并借钱给AMD,这样就可以避免美国政府的垄断诉讼。 如今,AMD 正在像廉价的周日自助餐一样吃英特尔的午餐。 硬件、软件和网络是人工智能基础设施的三个主要构建模块。 1. 硬件 MI300 (AMD) 比 AH100 (NVDA) 更先进:更多内存、带宽和 TOPS(每秒万亿次操作)。 使用 16 位数学进行的 AMD 和 NVDA 基准比较测试显示了这一优势。 NVDA 通过使用 8 位数学运行相同的测试来谴责它,并显示出更好的结果。 AMD 反驳,NVDA 没有回应。 AMD 小芯片设计和 3D 内存封装比 NVDA 具有固有的硬件优势。 另一个重要事实是MI300使用了台积电5/6纳米节点,而AH100则使用了台积电4纳米节点。 AMD可以通过切换到台积电4nm节点来快速超越NVDA。 2、软件 毫无疑问,NVDA 在软件方面遥遥领先。 AMD通过收购Xilinx招募了大量软件人才。 AMD 开源方法得到了软件开发商的热烈支持--Microsoft、Meta、AWS、Oracle、PyTorch、Hugging Face……。 随着开源人工智能软件的成熟,NVDA 的市场份额将大幅输给 AMD。 3. 网络 以太网是数据中心网络的标准,但如果AI集群规模庞大,它的速度会比NVDA的NVLink慢。 网络之王正在开发高速版本的以太网来挑战 NVLink。 当它到来时,NVDA Networks的优势也将消失。
@user-nu5mb9qw8v
@user-nu5mb9qw8v 10 ай бұрын
昨天來翻看舊片,今天竟然更新了 😂😂
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
原來是你貢獻的流量🥺
@LightnessRevant
@LightnessRevant 9 ай бұрын
極端的例外: Crisis初代就是直接用未上市的G80晶片做開發平台
@Robertyiwan
@Robertyiwan 10 ай бұрын
感谢回归!
@mikkeymask361
@mikkeymask361 4 ай бұрын
现在正式发布了,能不能发一期更新?谢谢!
@johnnytshi
@johnnytshi 2 ай бұрын
Actually, in LLM, higher memory is way more important. If you have to sync intermediate values, it's a lot slower. So if the chip can hold the entire model, that would be the fastest, with data sharding only.
@xiaolong174
@xiaolong174 10 ай бұрын
datacenter tax 比单纯TDP重要,软件决定系统资源的利用效率
@saitoTK124
@saitoTK124 6 ай бұрын
我有好幾台4090筆電 除了遊戲挖礦有什麼花樣可以玩?
@dreamerfish929
@dreamerfish929 10 ай бұрын
大師兄回來啦!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
食神歸位~
@dudulook2532
@dudulook2532 9 ай бұрын
苏妈能不能吧 r7 II 从游戏卡再包装回计算卡?那我们用户也算倒吸福利了哈哈
@user-rc6qo5zs8q
@user-rc6qo5zs8q 10 ай бұрын
完全同意!特斯拉的Dojo就在整个系统(Full Stack)下功夫。
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
沒錯,這就是system engineering
@xiaodongzhao5716
@xiaodongzhao5716 3 ай бұрын
well said
@user-sb5vz8ux4e
@user-sb5vz8ux4e 10 ай бұрын
您終於想起您的yt帳號了...
@harrison_chiu
@harrison_chiu 10 ай бұрын
什麼,竟然回來了 開心
@2011eric
@2011eric 10 ай бұрын
天啊 失蹤人口終於回來了
@user-to9ls8sw1x
@user-to9ls8sw1x 10 ай бұрын
目前超級電腦的CPU連結還是和以前的大型電腦的方式一樣,只是設備更快而已,有機會介紹超級電腦的CPU連結方式嗎? 英國的IMS T800是用4面都有一個BUS和其他CPU連結的通訊方式,兩點間的中間CPU是By Pass ,當初看雜誌是這麼介紹,不知有無記錯。
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
這個還真的要去做點功課,但我的直覺是,這些超級電腦很多設計是不對外揭露的,我們能找到的資料可能不多或是很舊,我可以試著去找找看啦,也蠻有趣的
@user-to9ls8sw1x
@user-to9ls8sw1x 10 ай бұрын
謝謝@@Tech4AllYall
@dynameis
@dynameis 9 ай бұрын
midjourney 大概就是自有版權model的 stable diffusion 自己機器怎麼會跑不了? 4090跑一張基本設定的SD也不過3秒 另外NVIDIA除了硬體外更大的優勢我認為是在花了20年投資出來的軟體生態
@ryankofish
@ryankofish 10 ай бұрын
講的太精彩了,真正的戰場是 PUE
@VGNYuanYuan
@VGNYuanYuan 9 ай бұрын
之前有聽過用M2 Ultra來做成離線使用的AI(LLaMA),因為他的統一記憶體剛好符合AI需要的大型記憶體
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
但問題在於這些離線AI模型品質和速度其實跟不上現行商業等級的,而且也不會有人為了可以離線使用AI砸大錢買一台192 GB的M2 Ultra Mac Studio,畢竟現在只要能上網就能免費用ChatGPT等等的免費AI
@user-bl8gd6yu6e
@user-bl8gd6yu6e 9 ай бұрын
HBM跟UMA完全不是一個等級 唯一的好處只有記憶體大 但頻寬只有人家的 1/3 ~ 1/5 加上處理單元數量差太多 整個加成效應會很大 NVIDIA 先前之所以想買ARM 說穿了也是看中這一點 GPU目前也是需要高性能的CPU相輔相成 可惜沒成功~~~
@user-tg2gl3kk5g
@user-tg2gl3kk5g 10 ай бұрын
爺爺你喜歡的貧終於更新了xd
@tp27273529
@tp27273529 10 ай бұрын
!!!!想說ig跟yt都沒有更新是不是不做了竟然又有影片了!!!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
說真的,我即使是之前還有固定在更新影片的時候也都懶得更新ig哈哈哈😆
@samuelyeung03
@samuelyeung03 10 ай бұрын
我有個突發奇想 既然nv link頻寬那麼大 有沒有可能透過nv switch 增加下級記憶體 為不影響性能的情況,大部變數還是儲存在gpu內部,常數全部放在下級記憶體,這樣的話對常數的讀取還會加快。 而且可以更改軟體,training的時候隨機鎖定部份變數然後儲存到nv switch上的ddr6 省下內的空間可以放下大一點點的模型 雖然應該不會加大很多 但再配合大量ddr5應該或許有效 當然啦,可行性未知,也會消耗大量電源
@yaus0527
@yaus0527 9 ай бұрын
在GH100架構上 NV就是把所有 memory 弄成一個池 Data access可以機過機
@samuelyeung03
@samuelyeung03 9 ай бұрын
@@yaus0527 我的意思是在nv switch上再外掛記憶體
@yaus0527
@yaus0527 9 ай бұрын
@@samuelyeung03 沒有好處 本身NVLINK 已經是 IO需求極工的晶片 還加上Memory 面積會加得很多
@unclesam8565
@unclesam8565 9 ай бұрын
博主分析的关于inference 的有误 MI300x 的推理能力很强 主要是每个gpu 有192G vram 大概 每个nose 放4个 mi300x 利用infinity fabric 连接 可以接近有800G 容量 可以舒舒服服跑GPT3类似的模型。mi300 在LLM inference 上性价比完爆H100 并且MI300x 的产能有优势。
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
數據,尤其是inference都是兩家公司官方的資料,而且這還沒考慮到實際的FLOP utilization。退一萬步來說,真的那麼棒那怎麼大家都去買H100呢😊
@petercandylee
@petercandylee 9 ай бұрын
There are a couple of reasons why MI300 is not selling 1. It is not ready - it won't be ready until next year 2024. 2. The older versions (MI250, MI100) are not selling well because the supporting software is not mature. But this will change because large software houses Microsoft, Pytorch, and Hugging Face are helping AMD to optimize its software. Large tech companies want to have a second source.
@sjcabbw
@sjcabbw 5 ай бұрын
SOC, system on chip, 系統一直在被集成一個單一晶片. 所以根本無所謂 系統重要或晶片重要 , 因為今天的系統可能就是明天的晶片.
@matrisys
@matrisys 9 ай бұрын
獨到的見解,AI設計上的一股清流
@Roku__1116
@Roku__1116 9 ай бұрын
突然看到推薦影片還以為是舊影片🥹
@user-bl8gd6yu6e
@user-bl8gd6yu6e 9 ай бұрын
MI300 問題除了串接成一個巨大算力之外 他的軟體生態發展晚 本質上是沒辦法跟NVIDIA比較的 現在所有訓練推理模型預設都是跑TensorFlow以及PYTORCH 在CPU市場也是一樣 過去AMD的cpu 只有支援雙路 即使他的threads 已經非常非常的龐大 但是intel早已經支援八路 多路系統最主要差異在於 串接後記憶體的容量整個上來 在傳輸上面 目前並沒有一個比較快的跨晶片傳輸 即使是nvlink記憶體延遲仍然十分龐大 主要在於要共享資料的時候 必須要穿透彼此晶片的cache或者記憶體 穿透出去就是慢 現在晶片的die與功耗越來越大 也許以後單個wafer生產製作成一個晶片的會越來越流行 另外就是更大晶圓的生產.
@RenameaName
@RenameaName 9 ай бұрын
爷爷,你关注的Up主更新了
@Dogzilla0606
@Dogzilla0606 10 ай бұрын
居然更新了😱
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
想不到吧
@werontan8664
@werontan8664 10 ай бұрын
靠,还好回来了😂
@f125532170
@f125532170 10 ай бұрын
哎呀~找到YT密碼啦
ARM vs x86: 冷飯重炒的假議題 | RISC vs CISC分析
25:36
科技公賣局
Рет қаралды 81 М.
為什麼Apple成功,而Qualcomm失敗 | arm筆電之爭
18:53
科技公賣局
Рет қаралды 36 М.
He sees meat everywhere 😄🥩
00:11
AngLova
Рет қаралды 10 МЛН
Was ist im Eis versteckt? 🧊 Coole Winter-Gadgets von Amazon
00:37
SMOL German
Рет қаралды 32 МЛН
MD5为何不再安全
13:00
Ele实验室
Рет қаралды 132 М.
15000元的RISC V台式电脑能做点什么?RISC V的软件生态发展的如何?
7:27
Deep-dive into the technology of AMD's MI300
17:40
High Yield
Рет қаралды 58 М.
Choose a phone for your mom
0:20
ChooseGift
Рет қаралды 5 МЛН
Игровой Комп с Авито за 4500р
1:00
ЖЕЛЕЗНЫЙ КОРОЛЬ
Рет қаралды 1,9 МЛН
ПОКУПКА ТЕЛЕФОНА С АВИТО?🤭
1:00
Корнеич
Рет қаралды 3,5 МЛН