AMD MI300與AI到底有沒有搞頭?

  Рет қаралды 31,800

科技公賣局

科技公賣局

Күн бұрын

Пікірлер: 279
@Tech4AllYall
@Tech4AllYall Жыл бұрын
果然太久沒上片,說好要加章節結果完全忘記😅 00:00 開場白 02:42 AI training和inferencing 05:21 生成式AI的硬體需求與挑戰 09:00 MI300 vs H100 11:08 Nvidia DGX的通訊技術以及 Network Topology簡介 15:00 MI300的缺點 15:42 MI300失敗了嗎? 18:09 主委加碼淺談Nvidia L40 18:53 系統設計才是王道
@Tech4AllYall
@Tech4AllYall Жыл бұрын
另外補充幾點: 09:14表格裡的數字單位是TFLOPs,MI300A的數據是由AMD提供,但是官網上並沒有註明2,507 TFLOPs是在多少的使用率(GPU utilization)之下得出來的數字;H100 SXM5的數字則是取自於Nvidia官方資料 如果對於Network Topology有興趣的人可以去Dr. Ian Cutress的影片,裡面講的更詳細 (kzbin.info/www/bejne/bqXIiKmDjbBsb6s) 如果是對Google TPUv4有興趣的人,可以看看他們官方發表的文章,裡面有提到他們客製的OCS通訊設備,用的不是ring bus/mesh/crossbar,而是一個3D甜甜圈(對,你沒看錯就是甜甜圈,正式名稱叫做3D twisted torus)的topology
@楊慎恩
@楊慎恩 Жыл бұрын
華爾街的笨蛋:好的,搬一台超級電腦來狙擊他的資產~~
@AlertImDK
@AlertImDK 11 ай бұрын
AMD MI300的特色之一就是整合CPU與GPU,可以大幅減少CPU與GPU通訊上的限制,減少硬體資源的浪費,榨乾GPU的性能,雖然MI300沒考慮串聯多個伺服器,但十分有利於中小企業,這正是nVidia比較疏於照顧的市場
@AlertImDK
@AlertImDK 3 ай бұрын
當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已
@Lovefact331
@Lovefact331 8 күн бұрын
世界上最強大的超速用的就是amd方案和mi250x。
@JarryLu
@JarryLu Жыл бұрын
原本還以為這頻道沒有要繼續經營下去了🥲
@Tech4AllYall
@Tech4AllYall Жыл бұрын
別高興得太早喔😇
@bailianqi2698
@bailianqi2698 Жыл бұрын
@@Tech4AllYall 你的意思是還有大的在後邊?
@windholygainsborough3653
@windholygainsborough3653 Жыл бұрын
我也是這麼以為的,局座去忙工作放棄YT了,沒想到忽然跳出這個推薦影片!!!!!!!
@jaycez3971
@jaycez3971 Жыл бұрын
Hahaha
@Tech4AllYall
@Tech4AllYall Жыл бұрын
哈哈 我自己也說不準,不想給大家錯誤的期待好像接下來就會穩定上片,我只能答應大家每次出片都會有一定的品質
@sianghuang7277
@sianghuang7277 Жыл бұрын
終於等到啦!架構型YT唯一支持
@阿綸的全勳學院
@阿綸的全勳學院 Жыл бұрын
講的相當好啊 感謝 讓我了解到很多之前不知道的東西 ps:我很喜歡你的節目呢 不管講解還有語氣表情的表達都很不錯 讓我很喜歡繼續看你的影片
@gigabytechanz9646
@gigabytechanz9646 Жыл бұрын
MI300 的目標客戶是中小企業,一般祗用1-4張 GPU 做 fine-tune, 最緊要 VRAM 多! 這卡正好合乎要求!
@farosislee83
@farosislee83 8 ай бұрын
这么个啥波一回复居然还有这么多赞?所以微软是小企业哦,甲骨文脸书是小企业哦,连amd为啥没急着做switch都没搞明白就在这儿瞎勾巴扯,mi300首先是要抢inference市场,而不是training
@pxl8827
@pxl8827 19 күн бұрын
邏輯思考非常縝密,期待下一次高品質的觀點分享
@kevinlantw
@kevinlantw Жыл бұрын
其實有點可惜沒有講到關於應用上MI300有多大的門檻要跨這件事。 看新聞,就知道所有在做AI的大公司都瘋狂的在搶NVIDIA的AI運算硬體,我都開玩笑說NVIDIA的產量限制了整個人類的進步XD 那為麼有更好的硬體不去用,還要跟人去搶NVIDIA的產品? 有原因的嘛~ 真的光是硬體設計夠優秀是沒有用的,沒辦法把軟體開發環境等整個生態系建立起來,搞得大家用起來門檻很高很麻煩,沒辦法“It just works",那就是失敗。大部份會去做AI Training的人剛開始入門的時候用就是學的某個框架,之後要大量使用的時候,也都會直覺得待在這個生態系。因為我只是要training model,專注的是思考新的訓練的方法,參數怎麼調等等,不太想花時間在轉換生態系這件事上面。舉個例子,大家用Windows,是生態系的關係,不是因為Windows有多好。Linux即使再好,再安全,再開放而且都能客製化還免費,這跟「一般使用者」沒有什麼關係,他們還是不想花時間在轉換生態系這件事上。再舉個例子,寫程式不就是有個基本的文字編輯器(notepad或vi)跟terminal就好了嗎?幹嘛要用IDE還被綁住? 如果今天是學術機構(不像企業有那麼強的時間跟競爭壓力),或有天才型工程師,能不受框架限制把所有硬體都運用自如,那很好啊?!就可以去用MI300或其它的硬體,沒必要被NVIDIA綁架。不過很可惜的是,真正需要大量AI硬體的大企業,他們有時間跟競爭的壓力,他們就是那個會被生態系綁架的那個「一般使用者」。
@陳寶-w3f
@陳寶-w3f 3 ай бұрын
天啊 我今天才注意到你的新影片
@洪維屏
@洪維屏 Жыл бұрын
謝謝您分享您的經歷與見聞,採用深入淺出的舉例,讓我瞭解AI產業相關的聯結,系統整合的重要。
@DavidLonelyHK
@DavidLonelyHK Жыл бұрын
回來了真好, 很喜歡你的分析 👍
@暗黑的破壞神
@暗黑的破壞神 Жыл бұрын
感謝講解 , 滿滿的真材實料 !
@MrDoraHo
@MrDoraHo Жыл бұрын
MI300 開發的時候就多是為了科學運算吧 主要科學運算的特性跟AI training 有點不同 科學運算主要都是做numerical simulation, 都是用Float64居多 而且現在的numerical code 主要都是memory bound, 所以不是用的不是CPU上DDR八通道就是GPU上HBM 如果你把MI300跟上面兩點相比一下, 就發現prefect match了
@EmpressHsiao
@EmpressHsiao Жыл бұрын
等很久了!!! 快點!!!
@Tech4AllYall
@Tech4AllYall Жыл бұрын
久等啦~
@吳宇紘-p9t
@吳宇紘-p9t Жыл бұрын
啊啊啊 爺爺公賣局更新啦 希望大大您好好準備 頻率不用高沒事的 但希望每次更新都很有品質🙏
@Cdictator
@Cdictator Жыл бұрын
第一次听你的节目,感觉做的很好,条理清晰,浅显易懂。赞一个👍!
@LightnessRevant
@LightnessRevant Жыл бұрын
極端的例外: Crisis初代就是直接用未上市的G80晶片做開發平台
@chiishenq
@chiishenq Жыл бұрын
局座回歸,期待中~ 我最近也在研究MI300,特別是MI300A型採用UMA , 看到有國外用 APPLE M2 ULTRA 192GB 跑AI訓練模型 C/P值超高,或許AMD 可以開發類似產品 不走HBM 改走 DDR5拚記憶體容量
@yaus0527
@yaus0527 Жыл бұрын
😂M2 soc2soc沒有比較強 對小模型M2 cp高 MI300在大模型比較好
@Tech4AllYall
@Tech4AllYall Жыл бұрын
接下來模型只會越來越大、參數越來越多,我們還是不要對單一一個處理器有太大期望😅
@Johnathan-_-
@Johnathan-_- Жыл бұрын
確實 我用m1 16g記憶體就可以跑1920*1080的stable diffution,統一架構記憶體在ai領域以個人研究 個人應用確實很有優勢
@oggysecond
@oggysecond Жыл бұрын
學到很多,影片製作辛苦了🙏
@limitli1117
@limitli1117 Жыл бұрын
Twitter有人推荐。看完感觉太厉害了。知识量强大。讲述清晰。❤
@neil1619
@neil1619 Жыл бұрын
終於等到更新了!
@Steve-tn9ep
@Steve-tn9ep Жыл бұрын
A great AI101 session. 👍
@petercandylee
@petercandylee 9 ай бұрын
如果深入研究 AMD 目前的产品、MI300、其路线图和人工智能领域,人们会意识到它将成为一个重要的参与者。 十年前,英特尔在数据中心 CPU 领域的主导地位比 NVDA 在 GPU 领域的主导地位更强,前者为 100%,后者为 85%。 AMD一度濒临破产。 英特尔希望AMD能够生存下来,并借钱给AMD,这样就可以避免美国政府的垄断诉讼。 如今,AMD 正在像廉价的周日自助餐一样吃英特尔的午餐。 硬件、软件和网络是人工智能基础设施的三个主要构建模块。 1. 硬件 MI300 (AMD) 比 AH100 (NVDA) 更先进:更多内存、带宽和 TOPS(每秒万亿次操作)。 使用 16 位数学进行的 AMD 和 NVDA 基准比较测试显示了这一优势。 NVDA 通过使用 8 位数学运行相同的测试来谴责它,并显示出更好的结果。 AMD 反驳,NVDA 没有回应。 AMD 小芯片设计和 3D 内存封装比 NVDA 具有固有的硬件优势。 另一个重要事实是MI300使用了台积电5/6纳米节点,而AH100则使用了台积电4纳米节点。 AMD可以通过切换到台积电4nm节点来快速超越NVDA。 2、软件 毫无疑问,NVDA 在软件方面遥遥领先。 AMD通过收购Xilinx招募了大量软件人才。 AMD 开源方法得到了软件开发商的热烈支持--Microsoft、Meta、AWS、Oracle、PyTorch、Hugging Face……。 随着开源人工智能软件的成熟,NVDA 的市场份额将大幅输给 AMD。 3. 网络 以太网是数据中心网络的标准,但如果AI集群规模庞大,它的速度会比NVDA的NVLink慢。 网络之王正在开发高速版本的以太网来挑战 NVLink。 当它到来时,NVDA Networks的优势也将消失。
@artnotes
@artnotes Жыл бұрын
好久没看到这人了,嘿嘿,大佬又出来了。 不过AI训练一般用Float32, 或者NV自己的TensorFloat32(简化精度,保留动态)。推理用INT8比较多。不过LLM这些主要依靠的Attention还是需要用浮点数否说损失比较大(虽然也研究用简化的INT8)。用INT8-INT4 有2个好处 一个是计算速度变快对于便携系统来说主要是这个好处。但是对于LLM来说是另外一个好处。就是 内存访问量变小了。LLM推理速度一般是哪内存速度限制了,因为权重太多每次推理相当于要把内存都扫描一遍。 不过说到训练其实也有2种模式。一个是小模型通常采用 内存换速度。也就是在Forward的时候记录所有的数据,在BackProp的时候直接录用FW的数据计算Gradient。不过随着模型变大,要Cache就不太可行了,那么就只能记录部分数据,剩下的重新计算。 到了最后 只能用速度换内存。也就是不记录任何数据,吧整个结构设计成可逆的。算到FW终点之后,BP的时候完全再反过来随便一遍。这也是LLM常用的模型。所以LLM 非常吃频宽和计算速度。而一般的小模型带上所有的Cache可能也就10G左右。
@jerrylee8207
@jerrylee8207 Жыл бұрын
嗚嗚嗚 終於等到更新了
@henry41224
@henry41224 Жыл бұрын
久違的更新
@陳輝龍-l2e
@陳輝龍-l2e Жыл бұрын
目前超級電腦的CPU連結還是和以前的大型電腦的方式一樣,只是設備更快而已,有機會介紹超級電腦的CPU連結方式嗎? 英國的IMS T800是用4面都有一個BUS和其他CPU連結的通訊方式,兩點間的中間CPU是By Pass ,當初看雜誌是這麼介紹,不知有無記錯。
@Tech4AllYall
@Tech4AllYall Жыл бұрын
這個還真的要去做點功課,但我的直覺是,這些超級電腦很多設計是不對外揭露的,我們能找到的資料可能不多或是很舊,我可以試著去找找看啦,也蠻有趣的
@陳輝龍-l2e
@陳輝龍-l2e Жыл бұрын
謝謝@@Tech4AllYall
@歸虛
@歸虛 Жыл бұрын
TPU、DPU、NPU、GPGPU真累,搞得人都有點糊裡糊塗的, 硬體架構跟演算法的配合。AI整合之路還有得走。 還有AI專精之路也還有得走。(專業AI處理器)
@amia0328
@amia0328 Жыл бұрын
終於更新了
@tp27273529
@tp27273529 Жыл бұрын
!!!!想說ig跟yt都沒有更新是不是不做了竟然又有影片了!!!
@Tech4AllYall
@Tech4AllYall Жыл бұрын
說真的,我即使是之前還有固定在更新影片的時候也都懶得更新ig哈哈哈😆
@watergod420
@watergod420 Жыл бұрын
挖賽,這支影片讓我茅塞頓開。不然我就是發佈會台下的那些華爾街笨蛋XD
@petercandylee
@petercandylee Жыл бұрын
From Tom’s Hardware The MI300 3D design allows for incredible data throughput between the CPU, GPU and memory dies while also allowing the CPU and GPU to work on the same data in memory simultaneously (zero-copy), which saves power, boosts performance, and simplifies programming.
@ryoushousou8774
@ryoushousou8774 Жыл бұрын
終於回來了。我都懷疑您是不是在美國遭遇槍擊案了🤣
@Tech4AllYall
@Tech4AllYall Жыл бұрын
I’m the one who knocks 😎
@AlertImDK
@AlertImDK 3 ай бұрын
當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已
@WenRenChen-y5s
@WenRenChen-y5s Жыл бұрын
這頻道很專業 加油
@handswasher
@handswasher Жыл бұрын
16:59 「説真的,就連 nVidia 在設計 Hopper 的時候,也沒預料到生成式 AI 的崛起,不然他絕對不會只給他 80GB 的記憶體」。 生活就是這麽 種豆得瓜 是吧。
@limitli1117
@limitli1117 10 ай бұрын
一直期待您的分享和看法!!英特尔最新 HPC 和 AI 计划的大量更新,包括有关第五代 Emerald Rapids 和未来 Granite Rapids Xeon CPU、Guadi 3加速器、对标Nvidia H100 GPU 的新Max 系列 GPU 基准测试的新信息
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
Intel純論產品而言的確是非常有趣,但再好的產品如果不能在適當的時機上市,那就難免陷入生不逢時的問題,就像Ice Lake Xeon還有Sapphire Rapids遇到的瓶頸一樣,產品不錯,但原先預想的對手產品早就已經在市場上流通已久,等到上市的時候已經太遲
@VGNYuanYuan
@VGNYuanYuan Жыл бұрын
之前有聽過用M2 Ultra來做成離線使用的AI(LLaMA),因為他的統一記憶體剛好符合AI需要的大型記憶體
@Tech4AllYall
@Tech4AllYall Жыл бұрын
但問題在於這些離線AI模型品質和速度其實跟不上現行商業等級的,而且也不會有人為了可以離線使用AI砸大錢買一台192 GB的M2 Ultra Mac Studio,畢竟現在只要能上網就能免費用ChatGPT等等的免費AI
@小兵-j1r
@小兵-j1r Жыл бұрын
HBM跟UMA完全不是一個等級 唯一的好處只有記憶體大 但頻寬只有人家的 1/3 ~ 1/5 加上處理單元數量差太多 整個加成效應會很大 NVIDIA 先前之所以想買ARM 說穿了也是看中這一點 GPU目前也是需要高性能的CPU相輔相成 可惜沒成功~~~
@小兵-j1r
@小兵-j1r Жыл бұрын
MI300 問題除了串接成一個巨大算力之外 他的軟體生態發展晚 本質上是沒辦法跟NVIDIA比較的 現在所有訓練推理模型預設都是跑TensorFlow以及PYTORCH 在CPU市場也是一樣 過去AMD的cpu 只有支援雙路 即使他的threads 已經非常非常的龐大 但是intel早已經支援八路 多路系統最主要差異在於 串接後記憶體的容量整個上來 在傳輸上面 目前並沒有一個比較快的跨晶片傳輸 即使是nvlink記憶體延遲仍然十分龐大 主要在於要共享資料的時候 必須要穿透彼此晶片的cache或者記憶體 穿透出去就是慢 現在晶片的die與功耗越來越大 也許以後單個wafer生產製作成一個晶片的會越來越流行 另外就是更大晶圓的生產.
@ChihMinChao
@ChihMinChao Жыл бұрын
重磅回歸
@張硯棠
@張硯棠 Жыл бұрын
非常感謝解說如此清楚😀 最近IBM New Analogue Chip看來是很前瞻的設計,是否能講解一下😂 存算合一使是否才是打破馮諾依曼瓶頸?
@DSDSDS1235
@DSDSDS1235 5 ай бұрын
看完mi300的規格 已經不是有沒有搞頭而是有沒有關係的問題了 一張雙精卡隨便加兩個低精度格式進去就當ai卡賣 😅
@神之义
@神之义 Жыл бұрын
完全同意!特斯拉的Dojo就在整个系统(Full Stack)下功夫。
@Tech4AllYall
@Tech4AllYall Жыл бұрын
沒錯,這就是system engineering
@unclesam8565
@unclesam8565 Жыл бұрын
博主分析的关于inference 的有误 MI300x 的推理能力很强 主要是每个gpu 有192G vram 大概 每个nose 放4个 mi300x 利用infinity fabric 连接 可以接近有800G 容量 可以舒舒服服跑GPT3类似的模型。mi300 在LLM inference 上性价比完爆H100 并且MI300x 的产能有优势。
@Tech4AllYall
@Tech4AllYall Жыл бұрын
數據,尤其是inference都是兩家公司官方的資料,而且這還沒考慮到實際的FLOP utilization。退一萬步來說,真的那麼棒那怎麼大家都去買H100呢😊
@petercandylee
@petercandylee Жыл бұрын
There are a couple of reasons why MI300 is not selling 1. It is not ready - it won't be ready until next year 2024. 2. The older versions (MI250, MI100) are not selling well because the supporting software is not mature. But this will change because large software houses Microsoft, Pytorch, and Hugging Face are helping AMD to optimize its software. Large tech companies want to have a second source.
@clancychou5411
@clancychou5411 Жыл бұрын
Nvlink 也是側面說明了通用打不過專用的場景,早期 VMware 也是希望用 x86 cpu 和虛擬化來實現 SDN,結果就是被打得滿地找牙,就算後來他們把更多功能整合到 ESXi 的 kernel,笑能還是慘不忍睹,幾乎把整個跟他綁定的 Tanzu 陪葬掉,搞的 VMware 在 k8s 方面實在沒啥亮眼的表現,最後還是只能老老實實的用 DPU,整個 vSphere7 就虎頭蛇尾的停留在 7.0 這個版本。
@Tech4AllYall
@Tech4AllYall Жыл бұрын
NV厲害的點在於,他們不像某些AI新創,他做的還是GPGPU,不會過度針對某個paradigm來設計硬體架構
@rw227
@rw227 Жыл бұрын
邊看邊落淚...終於回來了
@legiongun7678
@legiongun7678 Жыл бұрын
內容十分充實,解開了一些不瞭解的地方,感謝。
@蒼之月日常
@蒼之月日常 Жыл бұрын
爺爺你喜歡的貧終於更新了xd
@w02190219
@w02190219 Жыл бұрын
很棒ㄟ 很喜歡這樣的影片說明方式! 很有學習的感覺
@jawohlbxb3534
@jawohlbxb3534 7 ай бұрын
Im the one english comment no idea why youtube recommended this to me but here i am
@substarX
@substarX Жыл бұрын
不是...也太久沒更新了,想說會不會是忘了密碼。
@yaus0527
@yaus0527 Жыл бұрын
回來了🎉🎉
@左鹏-j6i
@左鹏-j6i 6 ай бұрын
听到过最娓娓道来,系统性能听懂的视频,赞👍
@ekopambudislamet7850
@ekopambudislamet7850 11 ай бұрын
Damnit, i dont understand anything...
@judahxiiiyoung7320
@judahxiiiyoung7320 Жыл бұрын
我靠,你終於回來了!你不要走啊! #好了評論完了可以開始看影片了
@samuelyeung03
@samuelyeung03 Жыл бұрын
我有個突發奇想 既然nv link頻寬那麼大 有沒有可能透過nv switch 增加下級記憶體 為不影響性能的情況,大部變數還是儲存在gpu內部,常數全部放在下級記憶體,這樣的話對常數的讀取還會加快。 而且可以更改軟體,training的時候隨機鎖定部份變數然後儲存到nv switch上的ddr6 省下內的空間可以放下大一點點的模型 雖然應該不會加大很多 但再配合大量ddr5應該或許有效 當然啦,可行性未知,也會消耗大量電源
@yaus0527
@yaus0527 Жыл бұрын
在GH100架構上 NV就是把所有 memory 弄成一個池 Data access可以機過機
@samuelyeung03
@samuelyeung03 Жыл бұрын
@@yaus0527 我的意思是在nv switch上再外掛記憶體
@yaus0527
@yaus0527 Жыл бұрын
@@samuelyeung03 沒有好處 本身NVLINK 已經是 IO需求極工的晶片 還加上Memory 面積會加得很多
@yongweihong99
@yongweihong99 Жыл бұрын
1:10 才發現你快消失了一年
@ryankofish
@ryankofish Жыл бұрын
講的太精彩了,真正的戰場是 PUE
@utterchen
@utterchen Жыл бұрын
你想起帳號密碼了
@markchen6549
@markchen6549 10 күн бұрын
如果是年更的話,差不多是時候了😂😂😂
@diss56789
@diss56789 9 ай бұрын
推推 優質頻道 另外可否講一下ROCm 6呢? AMD是否有持續改善在軟體開發環境上的劣勢呢?
@Tech4AllYall
@Tech4AllYall 9 ай бұрын
有,這個部分可以參考MosaicAI在六月發佈的消息,他們其實已經使用MI250X一陣子了,簡單來說我自己對ROCm還蠻有信心的,我更擔心的可能是硬體方面,Nvidia未來每年都會推出新的GPU/AI accelerator,AMD不能只透過堆料的作法來跟別人競爭,況且Nvidia光是這幾個月就推出了不少針對AI軟體而做出的更新,老黃不會傻傻的沒有動作讓對方追上
@diss56789
@diss56789 9 ай бұрын
@@Tech4AllYall 了解 感謝回覆~
@petercandylee
@petercandylee Жыл бұрын
MI300 GPU chiplets share the unified memory. Can they not communicate with each other using the shared memory?
@petercandylee
@petercandylee 10 ай бұрын
美超微表示,MI300X加速器支持高达192GB的HBM3内存,提供大规模语言模型推理和生成式AI工作负载所需的计算能力和内存效率。 借助MI300X的大容量内存,客户可以处理Falcon-40B等大型语言模型,仅使用一台MI300X GPU加速器即可处理400亿参数的模型。
@sjcabbw
@sjcabbw 8 ай бұрын
SOC, system on chip, 系統一直在被集成一個單一晶片. 所以根本無所謂 系統重要或晶片重要 , 因為今天的系統可能就是明天的晶片.
@johnnytshi
@johnnytshi 5 ай бұрын
Actually, in LLM, higher memory is way more important. If you have to sync intermediate values, it's a lot slower. So if the chip can hold the entire model, that would be the fastest, with data sharding only.
@matrisys
@matrisys Жыл бұрын
獨到的見解,AI設計上的一股清流
@DDP426Team
@DDP426Team 9 ай бұрын
MI300主要是能夠讓AI具有人類功能的思考,如果將MI300搭載到機器人上面的話,能夠讓機器人具有情感的思考。 很期待接下來台灣航太中心將火箭送上火星時,機器人是搭載MI300
@追憶似水年華-w4m
@追憶似水年華-w4m Жыл бұрын
好久都沒更新 等你等好久 以為你被擠牙膏公司網羅上班去了 沒打算再經營此頻道 原本已取消訂閱 想不到神奇的演算法又讓我看到....重新訂閱囉!!
@stilingiceland1403
@stilingiceland1403 Жыл бұрын
Cuda的软件生态太强了,mi300硬件强而rocm弱,最后还是没机会,无法实现平行替代。况且美国的禁运,实际老黄是睁一只眼,闭一只眼在执行,所以你懂的…
@华人在美国-q5b
@华人在美国-q5b 7 ай бұрын
多谢您的视频,让我醍醐灌顶,茅塞顿开。在NVDA上赚了差不多两万美金,而且会赚更多。已经subscribed。
@sutlliao
@sutlliao Жыл бұрын
AMD CPU的IOD,應該就是crossbar。
@Tech4AllYall
@Tech4AllYall Жыл бұрын
Bingo😉
@pincheng9639
@pincheng9639 Жыл бұрын
等了一年......
@Tech4AllYall
@Tech4AllYall Жыл бұрын
真的🫠
@810602jay
@810602jay Жыл бұрын
睽違一年多 頻道突然復活了!! 🥰🥰🥰
@h.y-chen
@h.y-chen Жыл бұрын
midjourney 大概就是自有版權model的 stable diffusion 自己機器怎麼會跑不了? 4090跑一張基本設定的SD也不過3秒 另外NVIDIA除了硬體外更大的優勢我認為是在花了20年投資出來的軟體生態
@rogerwang1474
@rogerwang1474 Жыл бұрын
某人破解了忘記的密碼
@Tech4AllYall
@Tech4AllYall Жыл бұрын
真的猜半天欸
@MurphyChu
@MurphyChu Жыл бұрын
哇! 失蹤人口回歸
@Tech4AllYall
@Tech4AllYall Жыл бұрын
失蹤人口自己投案了
@saitoTK124
@saitoTK124 9 ай бұрын
我有好幾台4090筆電 除了遊戲挖礦有什麼花樣可以玩?
@petercandylee
@petercandylee Жыл бұрын
NVLink is a connection between the CPUs and GPUs , so between sockets. The Infinity Fabric is many things more as it's build within the CPU/GPU, provides a link between dies and across sockets. Infinity Fabric isn't a kind of hypertransport but a superset of it. NVLink 是 CPU 和 GPU之间的连接,也是插槽之间的连接。 Infinity Fabric (AMD) 具有更多功能,因为它构建在 CPU/GPU 内,提供芯片之间和跨插槽的链接。 Infinity Fabric 不是一种超传输,而是它的超集
@dudulook2532
@dudulook2532 Жыл бұрын
苏妈能不能吧 r7 II 从游戏卡再包装回计算卡?那我们用户也算倒吸福利了哈哈
@Roku__1116
@Roku__1116 Жыл бұрын
突然看到推薦影片還以為是舊影片🥹
@jclin5422
@jclin5422 Жыл бұрын
當KZbinr 突然想起密碼是多少:
@xiaodongzhao5716
@xiaodongzhao5716 6 ай бұрын
well said
@eader100
@eader100 Жыл бұрын
食~神~歸~位~~~
@Tech4AllYall
@Tech4AllYall Жыл бұрын
大師兄回來了…
@Dogzilla0606
@Dogzilla0606 Жыл бұрын
居然更新了😱
@Tech4AllYall
@Tech4AllYall Жыл бұрын
想不到吧
@RenameaName
@RenameaName Жыл бұрын
爷爷,你关注的Up主更新了
@ctoid
@ctoid Жыл бұрын
我都已經想不起上次發片什麼時候了
@Tech4AllYall
@Tech4AllYall Жыл бұрын
別去算,我不敢面對🙃
@chainqueueing5474
@chainqueueing5474 Жыл бұрын
nv switch 不是 crossbar, AMD 所搭配的網路你真的了解嗎?...,很多地方都講錯,跟本不了解這些設計的差異... 唉, 其實也不用太苛責你...給個建議,去讀讀十年內,NV, AMD, 及相關的論文。或是視頻內容減少你自己的臆測,推論,以減少給觀眾錯誤的訊息.
@Tech4AllYall
@Tech4AllYall Жыл бұрын
就我找到的資料來看,不論是anandtech, serve the home, 還是Nvidia自己的hot chips presentation都是用xbar來描述nvswitch(譬如這個:old.hotchips.org/hc30/2conf/2.01_Nvidia_NVswitch_HotChips2018_DGX2NVS_Final.pdf) 想問一下你認為正確的topology名稱應該是什麼?我也不想給大家錯誤的資訊,所以如果能更正當然是最好 至於AMD的連接方式其實現在官方也還沒有正式公布,官方的示意圖看來是全部直接連接,而網路上面的小道消息是說他們chiplet-to-chiplet的頻寬不一致,當然這個還有待原廠白皮書來證明
@xiaolong174
@xiaolong174 Жыл бұрын
datacenter tax 比单纯TDP重要,软件决定系统资源的利用效率
@dare-to-come-down-ice-bird
@dare-to-come-down-ice-bird Жыл бұрын
感動 竟然回來了!!!!
@Tech4AllYall
@Tech4AllYall Жыл бұрын
我剛剛連你名字一起看,看成還敢回來啊冰鳥
@thxyh7022
@thxyh7022 Жыл бұрын
我好想念你啊!!!!!!!!!!!!!!!!!!!
@eddiec6479
@eddiec6479 Жыл бұрын
有時我會把你跟林亦LYi搞亂😂 都是講解有深度的東西
@mikkeymask361
@mikkeymask361 7 ай бұрын
现在正式发布了,能不能发一期更新?谢谢!
@takahirokan
@takahirokan Жыл бұрын
感謝分享,每次都能學到很多。之前還以為以後都看不到您的影片了🥲
@whhdtube
@whhdtube Жыл бұрын
自從停更後,失眠嚴重。請局座勿忘廣大失眠觀眾。
@petercandylee
@petercandylee Жыл бұрын
From EE Times 根据 AMD 的计算,各种 LLM 的 FP16 精度推理所需的 MI300X 数量少于具有 80GB 内存的竞争对手 GPU(推测为 Nvidia H100-80GB)。 Falcon-40B 需要一个 AMD 的 GPU 或两个竞争对手的 GPU。 PaLM 540B 需要 7 个 AMD GPU 或竞争对手的 15 个。 (来源:AMD)
@楊茗澄
@楊茗澄 Жыл бұрын
失蹤人口突然出現了 真令人驚喜
@kev19949a
@kev19949a Жыл бұрын
辣個創作者回來了!
@FallMaple
@FallMaple Жыл бұрын
哇塞 爺爺你訂閱的頻道更新la
@alpsnd
@alpsnd Жыл бұрын
AMD要拼多重同時演算能力 而不是跟NVIDIA拼單獨快速算力。 這也是AMD要堆疊大量快取記憶體的原因吧!
@kkkof787
@kkkof787 Жыл бұрын
想法很好。问题是财务问题。 以现在AMD 财力 CPU 已经难以招架,毕竟服务器市场占有率 难有起色,gpu上投入也不见得短期内改善财务。我比较担心未来2年市场投入不断上升 AMD 那就真的完全错过爆发期了。AI能有10%市占率都已经不错了。
@petercandylee
@petercandylee Жыл бұрын
Yes. It also reduces the total number of GPUs needed if each GPU can have a large pool of memory.
@jjj850314
@jjj850314 Жыл бұрын
想太多了AMD就不在運算的問題 你知道GH系列嗎 別說同時打不贏了你連入行的門檻都沒有 你知道ROCM出來多久了嗎?誰要用他
@alpsnd
@alpsnd Жыл бұрын
@@jjj850314 的確你是想太多了 NVIDIA就是贏在算力 AMD的新發表會(發售未定)後卻沒有打動AI企業的關注。 原因就是AI企業還是在意算力。 而AMD要追平NVIDIA的難度,蘇姿丰自己也心知肚明,在發表會沒有去強調算力的速度。 我只是覺得閣下對自己認知是否太自信了。 要不考慮執筆自薦書信給AMD的CEO你可以幫他們追上NVIDIA.
@ChuRainsa
@ChuRainsa Жыл бұрын
M2:我也可以塞192GB喔
@追憶似水年華-w4m
@追憶似水年華-w4m 10 ай бұрын
何時還會再出片?不要學冨樫一樣讓大家都等好久!!
@Tech4AllYall
@Tech4AllYall 10 ай бұрын
看來我應該跟老師看齊,先公布一下頻道的結局,免得哪天過世了都還沒來得及寫完😅
ARM vs x86: 冷飯重炒的假議題 | RISC vs CISC分析
25:36
科技公賣局
Рет қаралды 87 М.
Inside Out 2: ENVY & DISGUST STOLE JOY's DRINKS!!
00:32
AnythingAlexia
Рет қаралды 13 МЛН
when you have plan B 😂
00:11
Andrey Grechka
Рет қаралды 67 МЛН
когда не обедаешь в школе // EVA mash
00:57
EVA mash
Рет қаралды 3,7 МЛН
MD5为何不再安全
13:00
Ele实验室
Рет қаралды 134 М.
谁用谁倒霉!科技界最大灾星究竟是怎样炼成的?【科技杂谈103】
33:21
红酒汤姆一世(redwinetom)
Рет қаралды 127 М.
Inside Out 2: ENVY & DISGUST STOLE JOY's DRINKS!!
00:32
AnythingAlexia
Рет қаралды 13 МЛН