OpenAI最新モデル!OpenAI o1-preview, o1-miniについて解説してみた

  Рет қаралды 33,472

にゃんたのAI実践チャンネル

にゃんたのAI実践チャンネル

Күн бұрын

Пікірлер: 59
@sankaku813
@sankaku813 Ай бұрын
早速使ってみました。問題:「ある地方では、1年間に平均3回台風が通過する。この1年間に台風が通過する回数をXとし、これが平均u=3のポアソン分布P(3)に従うものとする。この時、この地方に5回以上台風が通過する確率を求めよ。」(大学レベルの「ポアソン分布」の問題です)「約18.47%」と正解しました。びっくりです!
@aivtuber2866
@aivtuber2866 Ай бұрын
統計学にも強そうですね!
@whilewecan
@whilewecan Ай бұрын
大学レベル?定型的なポアソン分布の問題でこんなのできて当たり前だと思うが。
@sankaku813
@sankaku813 Ай бұрын
@@whilewecan AIにできることがすごい、って言ってるのに。読解力ないのバレるよ。
@Polta_Sub
@Polta_Sub Ай бұрын
​@@whilewecan言語モデルってそもそもそんな計算出来るように作られてませんからね 入力文や自分の返答文からそれっぽい回答文を言語的・確率的に生成するだけなんですよ 中にポアソン分布の計算プログラムが存在するわけではないのにこの精度で正解できるのはすごいことです
@SO-wg4yb
@SO-wg4yb Ай бұрын
この問題は4でも4oでも解けましたね。数式に結びつける部分に曖昧さがないので結構楽なのでは。 「ある地方では、1年間に平均3回台風が通過する。この時この地方に5回以上、台風が通過する確率を求めよ。」 でも、4、4o、o1いずれも解けてますね。
@kenty240
@kenty240 Ай бұрын
o系列のモデルがAGIのプロトタイプみたいな形で発展してくれるとアツい。頑張れopenAI。
@motisnow7667
@motisnow7667 Ай бұрын
いつもありがとうございます!とても分かりやすかったです。o1-preview試してみます。
@aivtuber2866
@aivtuber2866 Ай бұрын
そう言っていただけて良かったです! o1-preview是非試してみてください😊
@ない-r3r
@ない-r3r Ай бұрын
使ってみたけど特定のタスクじゃなかったら4oとか3.5 SonnetとかGemini 1.5 Proでいい感じだった OpenAI自身も言ってるけど特化モデルであって4oの上位互換ではないので触る人はそこ注意 GPT-5とか3.5 Opus早く出ないかなあ
@aivtuber2866
@aivtuber2866 Ай бұрын
結構使い分けするの難しいですよね! 個人的に3.5 Opus楽しみです・・・!
@B0A0A
@B0A0A Ай бұрын
ノノグラムは日本だと「お絵かきロジック」などと言う名称で親しまれています これを解くと縦5行目までで大きな円を書き、最後の行で右下に点を打つので、「q」の形になります
@mail7036
@mail7036 Ай бұрын
エグゥ……
@aivtuber2866
@aivtuber2866 Ай бұрын
ありがとうございます!笑 「お絵描きロジック」知らなかったです・・・!
@JS-hg2vn
@JS-hg2vn Ай бұрын
なんか、普通のエージェントテクニックを従来のに導入したのと変わらない気がするんですが。値段は上がってないみたいだけど、その分使用回数制限されてるから、どうなんかね。O1は、今までの4oでCOT+アルファと言われても驚かないけど。商用モデルだしてるところに期待されてるのは素の言語モデル自体の性能向上だと思ってるので、この方向性は、どうなんだろう。
@SSS-100M
@SSS-100M Ай бұрын
最初はすごいなと思ったけど、よくよく考えれば、これってGPT4oに丁寧なプロンプト入れるのと変わらなくない? 難しい問題とかも解き方を丁寧に教えてあげればできるし。新しいタスクとかなら使えるかもだけど、既知のタスクならGPT4oの方が良さそう。
@aivtuber2866
@aivtuber2866 Ай бұрын
おっしゃるようにGPT4oでも同じような事ができますよね! OpenAIの公式の例を見ると、出力している思考が異常に長いので あの長さを一発で出すのは、o1みたいにモデル自体の設計を変えないと難しいかもですが・・・!
@hitsuki_karasuyama
@hitsuki_karasuyama Ай бұрын
論理的思考ができるようになったから数学が解けるようになったのか 数学を解けるように訓練したら論理的思考ができるようになったのか
@G.M.C.
@G.M.C. Ай бұрын
なるほど ありがとうございます
@aivtuber2866
@aivtuber2866 Ай бұрын
コメントありがとうございます! 少しでも役に立ったようでよかったです!
@yutoriotsu8848
@yutoriotsu8848 Ай бұрын
細かいルールに基づく専門的な判断はこれまでgpt-4oとかだと論理的正しさの保証ができなかったんですけど これの価格が安くなってAPIで使えるようになれば結構ゲームチェンジャーな気がしますね ただ相変わらずミスはするし変な間違いを犯すみたいなので人間のチェックは必要でしょうけど
@nyankichi1504
@nyankichi1504 Ай бұрын
なんとなくこれだと4oでCoTやった方が軌道修正もしやすくていい気がしてしまうけどどうなのかな
@aivtuber2866
@aivtuber2866 Ай бұрын
確かにo1思考が異常に長いので 全然違う方向に思考していったら めっちゃ無駄になりそうですね・・・🤔笑
@1192tucool
@1192tucool Ай бұрын
パズルはピクロスですね 行と列の数字が、×となる個数で、条件に基づく箇所を×として表せば まさに、Qという文字が描かれます
@aivtuber2866
@aivtuber2866 Ай бұрын
ありがとうございます😊 ピクロス初めて聞きました・・・!
@7timesInversed10to11
@7timesInversed10to11 Ай бұрын
残念ながら複雑な開発は出来ないみたいで、コードやメッセージの間で矛盾する事象をいくつも確認しました(4oと同じレベル)。それどころか、自分が処理できない論理は「利用規約違反」のフラグをつけて、回答を停止するという暴挙にあってます😭
@kone2018
@kone2018 Ай бұрын
まだプレビュー版だからね
@aivtuber2866
@aivtuber2866 Ай бұрын
@7timesInversed10to11 利用規約違反フラグ付けられるのは暴挙っすね・・・
@belcrod5
@belcrod5 Ай бұрын
Unity android build (gradle)の不具合をo1 さんと一緒に頑張っています 4oと比べると明らかに精度は上がっています。より論理的になっています 4oは即答を求められて陳腐な回答をした感はあったけど o1はステップバイステップをより高度に実行したイメージだと思いました ちなみに半日Unity android buildの不具合を頑張っていますが解決していません これはo1が無能で無くAndroid gradle が複雑すぎるにでないかなと思っていますw
@寺内宏之
@寺内宏之 Ай бұрын
ソフトウェアエンジニアよりかはシステムエンジニアよりの作業ですね。私もExpoを通してGradle使ってますが、あれはわけが分かりません。
@石川大介-z9t
@石川大介-z9t Ай бұрын
あー、しょうもないことに o1-mini 使ってしまった〜🤯
@aivtuber2866
@aivtuber2866 Ай бұрын
ありがとうございます!🙇‍♂️ そう言って貰えてありがたいです!
@shinka45
@shinka45 Ай бұрын
使ってみましたが月30回しか使えない程の性能ではないですね、余計なコード混ぜてきたりと扱いづらいです。
@RS-303
@RS-303 Ай бұрын
数学ができるということなのでやっと使い物になる😂
@B0A0A
@B0A0A Ай бұрын
こういうときのために前払いしてTier4にはしてたのですが 4に降りてくるのが遅そうなら追加で課金しようかと思っています 4oのときはすぐだったのでとりあえず様子見です
@aivtuber2866
@aivtuber2866 Ай бұрын
Tier4でしたらかなりAPI使われているんですね・・・!😲
@B0A0A
@B0A0A Ай бұрын
@@aivtuber2866 消費しなくてもクレジットだけ先に買っておけばTierは上がりますよ!
@merlin8
@merlin8 Ай бұрын
APIで使えるようになるのを待ってます
@うと_ゲームすき
@うと_ゲームすき Ай бұрын
LLMの進化とかでは無くて、処理のchainが進化したって感じなのか?
@aivtuber2866
@aivtuber2866 Ай бұрын
LLM自体の進化というより、 CoTプロンプト自動作成の精度が上がった感じかもですね🤔
@うと_ゲームすき
@うと_ゲームすき Ай бұрын
@@aivtuber2866 この動画しか見てないんですが、エージェント機能の進化って感じの内容っぽいですね
@shoronpoo
@shoronpoo Ай бұрын
問題を分解してスケッチを描いていくように考えている。データサイエンティスト要らなくなるかもしれない
@salmon54561
@salmon54561 Ай бұрын
考えてる過程を文字にすると精度が上がるっていうのは不思議ですよね🤔 めっちゃコスパは悪そうなのに、OpenAIがCoTの手法を取り入れたってことは、本当の意味での答えポン出しがどうしても無理で、せめて見かけ上はポン出しに対応したように見せてるんですかね🤔 現在主流のデータセットとCoTは切っても切れない関係にあるのかもですね。
@aivtuber2866
@aivtuber2866 Ай бұрын
確かに考えさせた方が良さそうって何となくわかりますが 思考過程の入力によって 言語モデルの中で何が起きているのかは不思議ですよね🤔
@salmon54561
@salmon54561 Ай бұрын
@marie-dq9ly なるほどです。解釈違いを防ぐために復唱するのは、人間でも大事ですね。方向性を絞るという過程も、複雑な問題を解くには必要ですもんね。 AIの不思議を超えて、言語の不思議って感じがします。リプありがとうございますm(__)m
@son-o9w
@son-o9w Ай бұрын
CoTにフォーカスする仕様が興味です。 「即答」「頭の回転が速い」「みなまで言わずとも動いて結果を出す」こんなことを、世間一般の組織は『優秀』と評価しますが、、実態は、AIの起こすハルシネーション同然です。早合点と抜け漏れとミスそして取り繕い。理屈を軽視する仕事の質は低いかと。それでも、質は問わず速度が欲しい要件も多いので、この例のように数理のテーマについて使いたいです。
@宇佐見英晴
@宇佐見英晴 Ай бұрын
小説を書いたりできる?
@大久保直太朗
@大久保直太朗 Ай бұрын
API高いし速度も遅い上に特定のタスクでしかアドバンテージがない 正直4oの音声モード実装放置して出すのがこれかあという感想 大統領選終わるまでGPT-5出せないのは分かるんだけど優先順位を間違えないで欲しいかな
@aivtuber2866
@aivtuber2866 Ай бұрын
4oの音声モード早く使ってみたいですよね・・・!
@shinzoabe4777
@shinzoabe4777 Ай бұрын
せっかく新しい機能がでても有償プランなのにこんだけしか使えないんじゃあ意味ないよね。製品開発に協力させられてる感が否めない。逆に安い料金プランで回数制限をかけたo1しか使えないプランを用意したほうが説得力があると思う。
@Radioman0990
@Radioman0990 Ай бұрын
でも、o1も9.9と9.11の大きさの比較はできないらしい笑
@dan-un8zr
@dan-un8zr Ай бұрын
私が見たのでは出来てましたよー
@uerllbeww-nc7vz
@uerllbeww-nc7vz Ай бұрын
LLMにとって9に付随する修飾語の数(.9 と.11)=計算量が.11の方が大きい、と判断している可能性も... あと、9.11を日付だと捉えてる?と思考の中身を見て感じました
@tosan-l3s
@tosan-l3s Ай бұрын
結局そういう間違いを少なくない確率で出力するんなら使い物にならないな。まあ機械が人間のように考えてるわけでないから当然っちゃ当然か
@宇佐見英晴
@宇佐見英晴 Ай бұрын
英語だけ?
@aivtuber2866
@aivtuber2866 Ай бұрын
日本語でも思考はしてくれるようです!
最新のRAG!Claudeを使ったContextual Retrievalを解説してDifyで作ってみた
23:45
にゃんたのAI実践チャンネル
Рет қаралды 6 М.
OpenAIから出たSwarmの何が良いのかを解説してみた
22:46
にゃんたのAI実践チャンネル
Рет қаралды 20 М.
СОБАКА И  ТРИ ТАБАЛАПКИ Ч.2 #shorts
00:33
INNA SERG
Рет қаралды 893 М.
버블티로 부자 구별하는법4
00:11
진영민yeongmin
Рет қаралды 29 МЛН
MY HEIGHT vs MrBEAST CREW 🙈📏
00:22
Celine Dept
Рет қаралды 97 МЛН
How Strong is Tin Foil? 💪
00:25
Brianna
Рет қаралды 46 МЛН
o1-Preview: 11 STUNNING Use Cases
23:11
TheAIGRID
Рет қаралды 45 М.
Gensparkの方が良いかも…?PerplexityAIとの違いを解説してみた
17:25
にゃんたのAI実践チャンネル
Рет қаралды 15 М.
GPT-o1: The Best Model I've Ever Tested 🍓 I Need New Tests!
10:58
Matthew Berman
Рет қаралды 279 М.
待望の新機能!OpenAIのボイスモードの使用感を解説してみた
18:26
にゃんたのAI実践チャンネル
Рет қаралды 16 М.
メインスマホをPixel 9 ProからGalaxy S24に戻した理由
21:32
トーマスガジェマガ
Рет қаралды 61 М.
OpenAIのGPTsより凄い!無料で使えるDifyを徹底解説してみた
38:08
にゃんたのAI実践チャンネル
Рет қаралды 73 М.
2025年これから流行る便利AIツール9選~ChatGPT以外にも知っておきたい生成AIツールまとめ
50:15
Claudeの最新モデル登場!PCを自動で操作できるComputer useなどを解説してみた
18:03
СОБАКА И  ТРИ ТАБАЛАПКИ Ч.2 #shorts
00:33
INNA SERG
Рет қаралды 893 М.