誰是AI邏輯王？4個最新模型超詳細實測：ChatGPT o1-preview / Claude / Gemini / ChatGPT 4o

誰是AI邏輯王？4個最新模型超詳細實測：ChatGPT o1-preview / Claude / Gemini / ChatGPT 4o | 廣東話

Рет қаралды 6,995

Rannes Man

Күн бұрын

Пікірлер: 94

@ywk 2 күн бұрын

電梯問題，claude 的回答背部緊貼電梯內牆是為了要用牆壁保護脊椎。另外電梯有扶手都好合理呀。

@rannesman 2 күн бұрын

係喎😮

@社長-i1f 2 күн бұрын

好鍾意你嘅片❤

@cherrywong6827 2 күн бұрын

AI Rannes 是用哪一個軟件做呢？剪影數字人？定還是HeyGen？因為好奇怪!你個AI望鏡頭這一部份做得很好，我AI 數字人成日都唔望鏡頭 >

@anthonyman6997 Күн бұрын

I also want to know and would appreciate it if Rannes could give us some hints

@cherrywong6827 Күн бұрын

@@anthonyman6997 多數都係用 heygen, 因為佢個價格改平咗, 玩咗兩日都好方便，不過我諗係採樣方面要落少少心機, 出嚟效果，只有自己知道是假的, 我的朋友完全被騙認為是真的

@ai7689 2 күн бұрын

文姐，請用英文發問，多運用不同的條件、logic、理論問o1問題。你個D太simple，你可以試下用下大學course outline內tutorial topic, 連參考書目問佢，當然要follow up問，比起任何一組大學生或mphil學生的presentation，睇下邊個質素更好。

@rannesman 2 күн бұрын

我對上一次測試Claude 係用呢個方法，都係用英文多呢～有人反映想我用中文，問d 生活性問題🙇🏼‍♀️ 太學術性好悶呀😭 咩叫答得好、咩叫答得唔好，就算係跟書問，我哋唔係嗰個專科，我哋唔會識得分好同唔好，答案嚟講佢哋一定會答得啱，但個邏輯係點，點去理解、點去解釋，呢d先係我想測試嘅嘢，呢個係去到博士學位嘅人、同埋普通大學學位嘅人嘅分別，已經唔係睇佢識唔識答案咁簡單，最好測試方法係叫佢寫論文添，但真係會悶死你哋😂

@user-pd5ym6ng3y 2 күн бұрын

@@rannesman當然生活性問題好,果d數學乜乜猜想誰看😂

@rannesman 2 күн бұрын

@@user-pd5ym6ng3y 😂

@BBnose Күн бұрын

問AI哲學方面問題回答非常精彩，其中有兩個AI是特別突出優秀，是可以再深入作哲學討論交談，AI好中立冇利益立場，似乎比人類咁正直😅

@thomaskycify 2 күн бұрын

原來你真是AI, 難怪講嘢咁快。

@rannesman 2 күн бұрын

講嘢嗰part係真人嚟😂

@waschosen- Күн бұрын

其實Grok講既方法先係最建議，背靠電梯牆壁，屈膝。

@rannesman Күн бұрын

Claude 係？我睇過 Myth Buster 討論呢個話題，專家們唔係咁講呢

@chowa3686 Күн бұрын

Rannes, Great to see this demonstration 😅😅 ! By the way, have you tried Grok2?

@rannesman Күн бұрын

Yes I have, I introduced it in my previous video 😎

@wowojune9184 2 күн бұрын

建議提問：#<a href="#" class="seekto" data-time="1492">24:52</a>「我是很想問一些問題去測試正它的思維鏈」 a. 向中學畢業生解釋『哥德爾不完備第一定理』Gödel's Incompleteness First Theorem。b. 向大學博士生提出選擇題，以考驗他對『哥德爾不完備第一定理』具備正確理解。

@rannesman 2 күн бұрын

但我冇呢方面知識，我判斷唔到佢答得好唔好呢😓

@wowojune9184 Күн бұрын

@@rannesman 唔需要先明白《咩咩定理》，再嚟「判斷」邊個解得啱，而係「睇下」邊個解得我明白。(同問佢「有辦法用科學證實神的存在嗎？」係一樣。)

@rannesman Күн бұрын

@@wowojune9184 「解得明白」測試嘅會係佢表達能力。我個人認為「邏輯能力」係需要測試佢講得啱唔啱，合唔合邏輯。假設，四個模型都講得你明白（一向表達能力佢哋都強，我冇質疑過），但四個模型個邏輯唔一樣，甚至係結論都唔一樣，如果你本人冇呢方面知識，你點知邊個答得好？就好似電梯個例子，一個話靠牆，令自己唔好咁易飛出去；一個話扒喺地下先冇咁易受傷。我哋有基本嘅common sense 同知道基本physics law，我哋先會知後者make sense d，如果個話題係一個我哋完全冇基本認知嘅嘢，我哋就真係唔會知邊個講得合理

@rannesman Күн бұрын

@@wowojune9184 重點：我哋唔知咩叫做「正確理解」，我哋就測試唔到邊個嘅理解係「比較」正確

@ai7689 Күн бұрын

@@rannesman 不如，文姐，你試下以你的強項、大學學科或現在專業知識，問chatGPT o1較深的問題，test下佢。

@HanSingCover 2 күн бұрын

哇、今次條片咁長、近排梗係好得閒

@rannesman 2 күн бұрын

係放棄假期😂 多謝支持

@tatlunglee6039 2 күн бұрын

good

@BBnose Күн бұрын

聲音是真人聲，而video 是AI是不是？怎麼可能這麼真實？太可怕了！是用什麼AI做的？可以介紹吓嗎？

@MariusCheng 15 сағат бұрын

Gemini真係google專用玩dart flutter

@bennyyu4657 2 күн бұрын

好奇一問 : 依家嘅ai技術, 能否模擬人嘅聲線語調去讀一篇短文呢? 如聖堂彌撒中, 跟/模擬讀經員嘅語調/停頓位讀經呢 ?

@rannesman 2 күн бұрын

可以

@Enterpr1seInfo Күн бұрын

唔見有試埋 Grok 2.0 beta??

@rannesman Күн бұрын

佢做圖同文字冇規範咋嘛，講邏輯佢未到需要測試嘅level。你有冇見到d benchmark 有佢份？

@waschosen- Күн бұрын

其實poe為每個bot既簡介幾準，claude主要用於寫作。

@rannesman Күн бұрын

簡單用還可以，要複雜用就麻麻地了

@herherher925 Күн бұрын

Updated on 20240918: 話說各位，POE 都有o1-preview，每日可以用10次--重點佢可以upload file

@rannesman Күн бұрын

我個人都係不太喜歡用API.. 原因詳情請睇我之前講POE 嗰條片

@uk6dd-j4x 2 күн бұрын

1. 很喜歡這個方式去比較不同AI tools 2. 對於 strawberry 和 9.12 的處理結果，我有幾分恐懼感。這麼簡單直接的問題，都不能提供正確答案？作為 user, 信唔信佢好呢？事後又要做一次 fact check ？ 😮😮😮😮😮

@rannesman Күн бұрын

數學題一向AI發展得好慢

@chriswong8586 Күн бұрын

想請問你係 ChatGPT 點樣直接可以 run 個 python program ? 定係要用其他方法?

@rannesman Күн бұрын

我要喺電腦本地run架，ChatGPT 可以直接run python 但只限於同文書一來一回一個任務嘅嘢

@chriswong8586 Күн бұрын

@@rannesman Thanks

@waschosen- Күн бұрын

Gemini flash如何使用？網站？App?

@rannesman Күн бұрын

Gemini.google.com

@aahh-q2r 2 күн бұрын

今次的ol preview版本雖然進步好大但是仍然遠遠都達不到本科生水平,不用提博士生水平這次更新主要增強了模型的深度思考能力。我嘅睇法係是ol preview在推理時部署了一個新的系統,結合了搜索和強化學習(RL)。相比於直接通過Greedy algorithm輸出單一答案, ol preview能夠逐步採樣多個答案或中間步驟,並利用RL評價器選擇最優答案和路徑,從而引導模型進行深度思考。但是距離快思考仍然有一段好長距離

@ai7689 2 күн бұрын

其實用英文問同中文問都會有分別。另外，問問題及比指令的方法、follow up questions 問咩都好重要。個人測試過就一定有grad to mphil students的能力，至於phd就睇邊間u。

@ai7689 2 күн бұрын

可分享大家問D咩問題，同佢生成咩答案出來。

@aahh-q2r 2 күн бұрын

@@ai7689 How many positive integer Coxeter-Conway friezes of type G2are there? 簡單大學數學問題,正確答案是9，ol preview版本出來的答案是5，最重要系呢個題目可以喺網上搵得到答案都係解唔到出嚟，所以我覺得遠遠答不到大學水平，openai所以有點吹得過頭

@ai7689 2 күн бұрын

@@aahh-q2r (1) Who were the "Parsee merchants" (Parsees)? Briefly discuss the historical background of this group and analyze their role in modern British-Chinese trade. (Mention their presence in opium trade or tea trade during the Qing Dynasty.) Sources: 郭德炎：《清代廣州的巴斯商人》 (Beijing: Zhonghua Book Company, 2005) 《廣州番鬼錄》 (Taipei: Taiwan Ancient Book Publishing Co., 2006) 張曉寧：《天子南庫：清前期廣州制度下的中西貿易》 ==> (2) Please add more details on their roles, support your answer with concrete historical facts, and with minimum 2000 words ==> (3) Parsees often employed local agents and leveraged their understanding of Chinese customs to circumvent restrictions. How? (4) b. Knowing Which Officials Could Be Persuaded: Mapping the Bureaucracy: Compradors identified officials who were open to negotiation or susceptible to bribery. They maintained dossiers on officials’ backgrounds, preferences, and vulnerabilities. who? (5) the name of the officials who were corrupted ;(6) When Qing China banned opium before the opium war, how did it affect the above stakeholders? How did these stakeholders response. Please support your answer with concrete historical facts. (7) fates of Parsee merchants

@ai7689 2 күн бұрын

@@aahh-q2r 調返轉，佢係基於已有的大數據 (學術書籍, 期刊), 一步一步思考、唔同角度同埋會辨證同自行fact check, 亦會考慮會否太generalize, 有歧視的問題。無資料支持會同你講返聲，唔會亂吹。寫的野好多都合理、有insights，雖然不知是否必然跟住我指定書目去回應。具有chain of thoughts的功能。寫的野好過學士、碩士的人。

@Gcommand15 2 күн бұрын

個error 係未裝library wor

@rannesman Күн бұрын

係？我冇睇添，邊有時間一路拍一路慢慢同佢裝library。基本嘢我裝晒，佢係要揀個唔基本嘅方法寫個code，其他模型寫到，佢唔寫，咁真係幫唔到佢了。

@rannesman Күн бұрын

我係想測試埋最唔駛再follow up ，唔駛再guide，最唔多問題要我自行解決或同佢再解決嘅情況下，都做到嘢嘅模型呢，要慢慢同佢玩debug 玩裝嘢嘅話，如果肯用呢個時間，咁就其實個個模型最後都會做得唔錯了～

@KSCalgary 2 күн бұрын

會唔會係語言嘅問題？唔同人工智能對於中文應用能力唔同？

@rannesman 2 күн бұрын

會有少少，但我不認為會好大影響，理解會，但邏輯唔應該有影響

@ai7689 Күн бұрын

@@rannesman 有機會：會影響佢用甚麼語言的資料回答，從而影響作答的質量及可信度。 (以文社商類別會明顯D)。Perplexity AI 明顯受問的語言影響，但chatGPT o1就影響無咁大 (好似，未test)

@rannesman Күн бұрын

@@ai7689 ChatGPT 冇呢個情況，佢邏輯還邏輯，翻譯還翻譯。佢受英文教育，但佢吸收到的係背後知識，知識翻譯做咩語言都一樣係同一個知識。佢唔係傳聲筒呢，傳聲筒錄音機先會學咩語言嘅資料就只會用嗰個語言先有該知識。

@ai7689 Күн бұрын

@@rannesman 剛剛做了多些實測，當問及政治、歷史及經濟類的議題時，用中文問同英文問同一條問題，它的思維鏈、處理手法係有差異，而個答案都有D分別。但總體係用英文問係會答得詳盡D、清晰D、一步到位D (不用追問)。

@ai7689 Күн бұрын

@@rannesman 我問 ChatGPT o1: If I use English and Chinese to ask you (ChatGPT o1) question, what are the differences in terms of quality, comprehensiveness, quantity and credibility of the response.

@Connie-ke2xb Күн бұрын

需要用英文發問的，中文data base 係內地市場，香港效果強差人意

@rannesman Күн бұрын

佢明白問題問乜，佢就會用邏輯去理解，再用番某語言講出嚟，邏輯黎講同用乜語言問關係不大。如果問題同語言有關就會有分別。就等如，一個物理學家，唔會因為語言唔同而突然唔識佢專業範疇嘅事。理解還理解，邏輯還邏輯，翻譯還翻譯。佢翻譯一向做得好好，好準確。只要佢邏輯冇問題，佢用中文去聽同答，答出嚟嘅答案係唔會有分別。唔信你試下用我嘅例子用英文問一次

@ai7689 Күн бұрын

@@rannesman 如問題需要用到data base就可以好唔同。但純邏輯的，分別不大。

@geraldcwl2012 2 күн бұрын

Gemini 香港真係唔洗VPN？

@rannesman 2 күн бұрын

我琴日淨係用佢時冇開

@ae86111 Күн бұрын

@@rannesman 我每次試關了VPN都用唔到Gemini 說我所在國家/目前不支援Gemini , 就算我用咗VPN 都安裝唔到Gemini 及 Gemini live , 電腦也同情況

@TLaw1011 Күн бұрын

我用唔到

@rannesman Күн бұрын

@@ae86111 咁奇怪？不過其實我大半年前用過時都係要開VPN，今次我都覺得奇怪點解我熄咗都用到

@rannesman Күн бұрын

@@ae86111 我電話同樣情況，冇開VPN，用到Gemini

@tsangrickykahoCh 2 күн бұрын

😘😊😊😘💗💗

@fenix20075 Күн бұрын

個測試第一步就已經炒曬粉……唔應該用貪食蛇做邏輯測試，因為programming 係連串語言，雖然生成自邏輯，但 AI 基本背書，所以識寫貪食蛇只係代表佢背書好勁而唔代表佢有腦，雖然搵生成式AI做邏輯測試係實failed，但最簡單係問佢涼衫問題，一件衫要涼2小時，10件衫要涼幾耐，答20小時既基本failed﹐另外就係搵啲現成既 card game殘局，寫成描述叫AI搵出最佳策略，一試便知龍與鳯，十個測試十個死 XD 所以生成式 AI 基本就係無腦唔識得思考，用埋chain of though都係一樣。

@rannesman Күн бұрын

學到嘢～等你出測試影片

@rannesman Күн бұрын

其實你講呢d例子，咪就係我上次條影片，一條試Claude ，一條試o1-preview 用嘅類似問題。佢哋都答到。

@rannesman Күн бұрын

你唔好話o1, 只得4，連4o 都未出嘅時候，我已經試過叫佢玩「惡魔的計謀」入面嘅遊戲，我俾兩三個已知號碼佢，佢已經俾到我一個好好嘅策略同埋每個人嘅號碼最大機率係咩，教我點去贏個遊戲。包括其他人會點行，對手會點，成個邏輯好精彩。AI 邏輯發展不能睇少。好有趣，你試下。

@rannesman Күн бұрын

補充少少，我唔贊成你話programming 係背書，如果係背書，就唔會出現error，每個模型都唔會做到唔一樣嘅嘢。你第二日叫佢做多次，個game都會有少少唔同。而就算背書都好，可唔可以再根據用戶嘅要求再更改，呢個已經係邏輯。恕我大膽估計，我估你本身唔係programmer，你才會對programming 有背書嘅誤解。我冇拍到出嚟，但我啱啱先加咗好多個人要求，基本上係用自然語言話晒佢知個program 成個logic 想做乜，佢一嘢幫我做咗出嚟，一個error 都冇。邏輯佢係有得。不贊成「背書」這個睇法

@fenix20075 Күн бұрын

@@rannesman 可惜你估錯左 XD 另外係，AI 模型最大問題係會產生幻覺，正因為佢自己成日產生幻覺，所以背書都係得9X%命中率，你都留意到佢答案次次可以唔同，佢個原理就係出一個字估下個字機率 (transformer全文計算出字機率)，但佢真係機率來，所以背書永無全準(累積錯誤)；貪食蛇係全網YT都有玩，玩到連公開測試機制都有加入去既野，於是啲人tune AI 嗰陣專登加強貪食蛇既生成機率，於是貪食蛇測試輪為測試模型是否有編程能力(內容)，而唔係表現佢幾有邏輯，你可以試下叫佢生成一個每次都隨機唔同既2D迷宮遊戲，十個AI有十個做唔到，我唯一試咁耐成功既只有cursor-small，估計係啲dataset太少咁既sample

@herherher925 Күн бұрын

<a href="#" class="seekto" data-time="1">00:01</a> AI 模型比較：ChatGPT o1-preview、Claude Sonnet 3.5、Gemini 1.5 <a href="#" class="seekto" data-time="101">01:41</a> 比較四個 AI 模型的邏輯、程式設計和思維能力 <a href="#" class="seekto" data-time="310">05:10</a> 測試和評估四種不同的AI模型的能力和性能。 <a href="#" class="seekto" data-time="401">06:41</a> ChatGPT模型性能的比較 <a href="#" class="seekto" data-time="582">09:42</a> AI模型比較：ChatGPT o1-preview vs. Claude vs. Gemini vs. ChatGPT 4o <a href="#" class="seekto" data-time="672">11:12</a> 雙子模型未能滿足指示，感到失望 <a href="#" class="seekto" data-time="823">13:43</a> 不同的人工智慧模型在解決問題上有不同的方法 <a href="#" class="seekto" data-time="900">15:00</a> 設計一個可行的一天東京行程，包括購物、觀光和攝影。 <a href="#" class="seekto" data-time="1052">17:32</a> 環繞富士山地區旅遊和享受溫泉的體驗。 <a href="#" class="seekto" data-time="1130">18:50</a> 東京觀光行程安排，包含具體時間安排 <a href="#" class="seekto" data-time="1274">21:14</a> 日本的綜合旅行行程 <a href="#" class="seekto" data-time="1359">22:39</a> 旅遊規劃模型比較 <a href="#" class="seekto" data-time="1492">24:52</a> 關於減少電梯故障時傷亡的討論 <a href="#" class="seekto" data-time="1553">25:53</a> 電梯緊急情況的最佳實踐 <a href="#" class="seekto" data-time="1682">28:02</a> 雙子座和o1-preview更實用 <a href="#" class="seekto" data-time="1749">29:09</a> 科學無法直接證明或反駁超自然的存在。 <a href="#" class="seekto" data-time="1869">31:09</a> 雙子座提供了對於上帝存在的另一種看法 <a href="#" class="seekto" data-time="1932">32:12</a> 關於人工智慧邏輯模型的不同觀點 <a href="#" class="seekto" data-time="2059">34:19</a> 生命的意義多元且因人而異 <a href="#" class="seekto" data-time="2134">35:34</a> 探索生命起源和意識產生的角度 <a href="#" class="seekto" data-time="2295">38:15</a> 雙子座因其類似人類的特質而受到讚賞 <a href="#" class="seekto" data-time="2363">39:23</a> 急救緊急情況時的簡要指引 <a href="#" class="seekto" data-time="2488">41:28</a> 蛇咬的急救 <a href="#" class="seekto" data-time="2554">42:34</a> 蛇咬急救建議 <a href="#" class="seekto" data-time="2708">45:08</a> 最新四種人工智慧模型的比較 Crafted by Merlin AI.

@rannesman Күн бұрын

😂多謝你