OpenAI o3 震撼发布！Arc AGI 测试得分超越人类｜ OpenAI 12天「第12天」| 回到Axton

Рет қаралды 31,690

Күн бұрын

Пікірлер

@axtonliu 9 күн бұрын

掌握 AI 时代的必备技能，加入「AI 精英学院」 👉 axtonliu.ai ▶ 「AI 实战派」Prompt Engineering 提示工程超值早鸟价课程 👉 axtonliu.ai/ai ▶ 「AI 自动化」教程 ChatGPT + Make + Zapier + 高效Notion模版 👉 axtonliu.ai/autoai

@axtonliu 9 күн бұрын

OpenAI 12天收官之作，o3 最强模型发布，可自我评估、博士级水平、Arc AGI 测试得分超越人类！如果说人类的使命就是创造 AI，那么现在已经完成50%了。。。

@bomen.s3521 7 күн бұрын

主讲人也是个天才选手啊。。。

@axtonliu 9 күн бұрын

勘误：视频中提到的首席科学家应该是 Jakub Pachocki，不是 ilya 😅

@hou.m.9756 9 күн бұрын

17:02 Sam Altman 聽到後踩了一下煞車

@axtonliu 9 күн бұрын

👍

@jameszhang3877 9 күн бұрын

测试一下o3：“请以尽量简洁的方式证明一下费马大定理”😄😄😄

@lienjerry7370 9 күн бұрын

費曼猜想也不錯

@隱居練氣修仙中 9 күн бұрын

@@lienjerry7370 然後整個系統因為你的一句話而被搞當機了😅 欸，不是，說不定會因為你這樣提問而產生意識了🎉🎉🎉🎉🎉🎉🎉🎉🎉🎉

@austinsu5838 9 күн бұрын

這些問題都離我們太遠了，還是問點實際的問題，例如：「女友跟媽媽掉進河裡，先救誰」😂

@jameszhang3877 9 күн бұрын

@@austinsu5838 你太狠了，这是想虐死AI的节奏啊

@chi_huang 9 күн бұрын

紙寫不下得證：費馬大定理

@_ZANDER 9 күн бұрын

普通人還是用gemini和claude就行了 o系列模型上限雖然高但對一般人來說實用性不高如果o家拿不出夠強的非推理模型用戶多半會一個個跑

@心能量-c8v 9 күн бұрын

人類即將解放了，感恩宇宙，感恩上帝。

@john1987john 9 күн бұрын

如果任何事都能轻易得到的世界正在发生，这是非常可怕的一件事

@RolexChan 9 күн бұрын

At around 17:00 in the video, two tech guys suggested that they want AI to self-improve and evolve 🧬. Sam immediately interrupted them and said: 'Maybe not.' This was because he was concerned about AGI safety, Lmao.

@Othersarehell 8 күн бұрын

强

@祥宇林 21 сағат бұрын

若和deepseek v3比差距大嗎未來還需要如此大量的硬體ㄇㄚ

@ice300tw 9 күн бұрын

居然是小沈陽一起做ending

@OAAGOD 8 күн бұрын

还差得远呢，应该说只是刚刚开始，还得等量子计算机的普及，尤其微型化本地化

@hongweiwang781 9 күн бұрын

正当我以为openAI被google追上的时候，原来openAI藏着核弹没放呢！现在压力来到google一边了，“thinking”这种最大限度发挥模型能力的把戏，最终还是不能代替基础模型的能力。

@vincentjiang4788 9 күн бұрын

目前AI应用最大的问题：你不知道AI这次是在帮你，还是在帮你挖坑。也不知道这次是专家还是砖家。十次可控，一次不可控，饭就夹生了。有可能还是掺了砂子，吃也不是，扔还可惜。

@eggchang 9 күн бұрын

你形容的不就是你的壞朋友嗎？

@31618doremi 9 күн бұрын

要說到這份上得話，感覺人也是吧XD

@vincentjiang4788 9 күн бұрын

@@eggchang 唉，差不多吧，当我把AI应用到我的项目才有这样的感叹了，我把项目目标拆解成明确的任务步骤，一步一步往下做的时候，我迷茫了。生产环境没有用一句话就能搞定的，也不可能随机，AI做啥我用啥。很多科普博主都是玩玩，根本不做项目，没要求、没目标、更不会多平台整合。

@林士翔-q4b 8 күн бұрын

這是事實🤣，假如是產生知識性的文章問題還算可控。但真正要開發大的專案，就需要一個超大的context記住所有的常量，否則就無法避免隨機性。比如它可能寫出一個兩個互相矛盾的測試，在修正的過程中毀滅一切🤔。但那開發速度又是吸毒般的爽快🥹，我認為終究要有一個人類，要有能力掌握整個專案，細心的一步一步的前進。當然，如果是超高價格的特規服務也許能做到，但那燒掉的錢說不定比賺得多

@brandongold 8 күн бұрын

感覺你在講人類😂

@Page_max 7 күн бұрын

Hi, it seems that youtube have video translation options, hope you use those options for further outreach. You would be surprised at how many people are interested in listening in your views

@lovetw001 9 күн бұрын

這個猛

@chenchen-c7n 9 күн бұрын

怎么申请使用o3呢？

@waylonwong369 9 күн бұрын

快说是不是2000美金一个月😅，那个做基准测试的兄弟打两个广告，sam说谢谢，下一个

@myan518 9 күн бұрын

如果 AI 能够率先解决复杂编程和代码检查的问题，对创业者来说就是极大的福音。其他方面暂时不担心 AI 的影响。目前似乎研究的努力目标都是尽快复制出类似 AI 研究员那样的 AI，参加数学竞赛、写代码之类的，说得刻薄一点，就是目前他们在努力达成的目标都是制造出能把自己卷死的“书呆子 AI”。你看看现实世界就知道了，这种书呆子并不是真实世界里的赢家。

@lovetw001 9 күн бұрын

預先編碼難，因為真實環境要考慮硬體

@bomen.s3521 7 күн бұрын

挺强大的，如果 Cloud35 ，Gemini，也能在半年，1年达到 O3 的水平的话，估计留给编程人员的时间，也就 1，2年了。大批的转型，势在必行。

@Sweetdreams-e5c 9 күн бұрын

o1都还没来得及用呢

@苏诺与诺妍 9 күн бұрын

留给人类文明的时间真的不多了。

@john1987john 9 күн бұрын

2027

@阿才-f1x 9 күн бұрын

看的出來研究員確實很有熱誠而且高度專業但對外還是需要像山姆這樣才不會容易失言

@Jamesbound407 7 күн бұрын

压力来到了发电站这边😂

@axtonliu 7 күн бұрын

😂

@陳志明-w3c 9 күн бұрын

這種使用右腦的LLM(基於統計關聯而非logical rules,甚至只有自然語言才有semantics電腦語言沒有)的設計不要太期待能做到AGI.

@Bryan-bo2kg 9 күн бұрын

符號主義😂

@leeloo_yh 8 күн бұрын

但也許能做到騙到所有人類覺得它是

@AlMan-pm9sz 3 күн бұрын

其實o3會不會認知到翻牆使用它這樣的情況～因為應該要杜絕這樣的狀況

@juneadyue-nw3wr 8 күн бұрын

什么时候模型能够自我学习，创造新科技，人类做的就只是开电源的话，agi就算实现了。

@tiabillyzju 8 күн бұрын

所以假如给一套人类还不知道如何解决的数学问题，o3有可能解决么？

@waynepeng9945 8 күн бұрын

根據他們的測試從打0.2%進步到25% 但我很懷疑這樣測驗的準確性我相信那些做測試的專家都不是受過數學嚴謹性訓練的數學家對數學家而言沒有什麼叫做50%正確只有0或1 任何論證過程中產生的一個無法更正的小錯誤都會被視為沒解決問題不管那個問題在小

@liaoleejun 9 күн бұрын

👍请教一下：您用的是什么语音转录文本做的字幕？感觉比KZbin自带的字幕准确很多

@vast5516 9 күн бұрын

我怎么记得早就超过人类平均得分了

@O_O-lw4gl 9 күн бұрын

超过是指所有人类在各个项目但所谓的平均，是指你有相关领域的知识或者学习之后，做出来的评估数据简单来说，我们不可能把一个没有学过数学的人，来和AI比较，而是把有学过的来评估

@zhangyulou 9 күн бұрын

被谷歌和meta还有国内追的受不了，只能不断发新的了

@Youngsmiles-go7jv 9 күн бұрын

没有02吗？

@waylonwong369 9 күн бұрын

一看你就没有看视频，张口就来

@nwohocan 9 күн бұрын

3個月後被追上，沒有持續性的資金投入可以撐到獨佔寡頭

@lovetw001 9 күн бұрын

我最近在測試GPT o1疑似開始打我臉的語氣了

@fluxway 9 күн бұрын

太恐怖了，AGI可能真的在五年內就出現了

@fredzhu455 9 күн бұрын

从gpt3.5开始就在说超越了人类的平均水平，搞到现在还在超越平均水平。人类的平均水平看来比AI发展的更快

@モノクロムセレティクス 8 күн бұрын

是的，人类就是嘴硬的太多了，每次都改对比标准，我看o3也不如我，我穿了两条秋裤，o3一条也不会穿😅

@劉一一-k7x 9 күн бұрын

😂工程師2025解僱潮

@juneadyue-nw3wr 8 күн бұрын

效果不错，但普通人几乎用不上，或则很少用上，单论这个功能和版本我觉得会亏钱

@tensorflow5330 9 күн бұрын

o1 要200$/per month, o3要多少2000$, 感觉越来越远离普通人了

@ruruyee39 9 күн бұрын

從 11:30 的圖來看成本大概3倍吧

@huangcc72 9 күн бұрын

強人工智慧到後來應該都是給企業用, 就算每個月一萬美給企業用戶用, 還是划算..

@hotsauce3563 8 күн бұрын

现在o1 200美元一个月太贵了，用不起。

@axtonliu 8 күн бұрын

20的也能用，就是有用量限制

@hisshoney3853 9 күн бұрын

聽說運算成本問題還沒解決 ....

@gl1981cn 9 күн бұрын

基础程序员前途堪忧啊

@Aji-dj8zm 9 күн бұрын

程序员失业倒计时

@millerinoffice 9 күн бұрын

真多中国人

@huangcc72 9 күн бұрын

Mark 是台灣人, 另外一個就不知道了

@pinchemeom 9 күн бұрын

真多台灣人

@9263STYV 9 күн бұрын

真不知道这个博士水平是怎么定义的，如果只是做题的话，都是题库训练的，不知道处理全新问题的水平怎么样？之前的 O1亲测过，就逻辑推理而言就是个小学水平，甚至都不如。比如你给它一个全新的定义，比数学框架，它就无法按照你的定义的逻辑进行推理了。

@johnny1896 9 күн бұрын

很明顯你連影片都沒看

@9263STYV 9 күн бұрын

@@johnny1896 我是没看这个影片，但是我看的是原始的发布视频。整个视频都是在说他们的 Benchmark 测试中成绩怎么高。对于题库里面的东西，在训练后，解答并不奇怪。一个只会重已知题库里面找答案的东西也能叫博士？智能的核心以及本质是逻辑推理，而不是在已知的信息里面做索引。原始视频里面说逻辑推理有提升，真实的情况大概就是个小学生水平，他们吹的太浮夸。之前的 O1 也是这么吹的，自己亲测就是个小学生的水平，甚至还差一点。这种作为拉投资大吹也正常，不然不会有金主爸爸继续投钱。

@jerrytu1784 9 күн бұрын

@@9263STYV如果你看完原影片還是這樣認為你可能要先檢討你的英文理解程度

@9263STYV 9 күн бұрын

@@jerrytu1784 这个我就很奇怪了。我们说一个小学生和一个博士，指的不仅仅是他们掌握的知识，更关键的是他们的逻辑推理能力。给一个全新的框架，一个全新的体系，怎么在这个框架和体系下解决问题才是本质。就这？信这种无脑吹的人很多很多，我也管不着。朋友，而且在你发表留言前，麻烦你给出观点，自己论据，实验结果也罢，推论也罢，来支持你的结论。而不是动不动就就叫人检讨，神马的，这样很 low

@yukeith8689 9 күн бұрын

@@jerrytu1784 的確