OpenAIのGPT-4oの画像生成がどう変わるのかを解説してみた

Рет қаралды 30,768

にゃんたのAI実践チャンネル

Күн бұрын

Пікірлер: 37

@terryterr 3 ай бұрын

商品説明文章作成で画像からHTMLを作成してもらったんだけど、クオリティの高さと速さにたまげたよ。もうここまで来てるんだなと。学生は学習要項を大幅に変えるレベルなのだなと。。

@salmon54561 3 ай бұрын

あの発表の仕方だとすぐ使えると思っちゃいますよねｗ今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね？

@aivtuber2866 3 ай бұрын

ちゃんと読まないとわからないですよね笑 > 今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね？ですね！　入力も出力も色んなドメインのデータが扱えるようになりそうです😆

@user-bu4sg1lr6i 3 ай бұрын

Gemini 1.5 Proがマイナーチェンジされて性能が上がってるみたいなんで、Gemini 1.5 Flashと一緒に取り上げて欲しいです！

@aivtuber2866 3 ай бұрын

リクエストありがとうございます！ Geminiも見てみますね😀

@user-bu4sg1lr6i 3 ай бұрын

@@aivtuber2866 ありがとうございます！楽しみにしてます

@B0A0A 3 ай бұрын

音声と画像なら、画像のほうが高度でしょうだから実際には、GPT-4oの一番すごいのは画像認識から生成までが一直線にできるようになったことだと思いますこういう仕組みであれば、AIが絵を描いていると言ってもいいですね

@AoiIZgNSTa51DhvRw 3 ай бұрын

LoRAのように既存キャラクター画像を複数枚、多角的に学習できるようになれば私にとって最良のパートナーになりそうです。とてもいいチャンネルですね。情報をありがとうございます。

@AoiIZgNSTa51DhvRw 3 ай бұрын

追記、『ポスター制作』のご説明にあったように複数の画像を読み取ることができるとのことなので、LoRAより自然な画像生成ができそうですね。期待大です。

@aivtuber2866 3 ай бұрын

コメントありがとうございます！既存のキャラクターもいけそうな雰囲気ですよね😊

@AoiIZgNSTa51DhvRw 3 ай бұрын

@@aivtuber2866 さまお返事ありがとうございます。画像生成に一貫性を持たせる機能はまだ実装されていないですよね？ Xのポストで「一貫性のテスト～」などの発信が散見されるので気になりました。 Open AIの公式を見てもいつから開始かは載っていないので質問させていただきました。失礼しました。

@aivtuber2866 3 ай бұрын

@TACTICSandOIL 公式の発表から判断するとまだ実装されていないはずですね！現状画像生成はDALLE3が使われていると思います😊 デモでもあまり取り上げられていなかったのでもしかしたら少し先なのかもですね･･･

@RivusVirtutis 3 ай бұрын

4oの発表はどこまで実装されてるかちょっと紛らわしかったですよね。テレビだけでなく某ai系youtuberさんも会話機能を試してみて褒めていました最高に優秀な研究者集団なんでしょうけど、こういう世界が注目するメディア向けの会見は慣れてなかったのかなと思いました。

@aivtuber2866 3 ай бұрын

今回はSoraの時とは違って似たような機能が既にあるのでちょっとわかりにくかったですよね～🤔

@AoiIZgNSTa51DhvRw 25 күн бұрын

コメント失礼します。この機能いつ頃できると思いますか？

@aivtuber2866 22 күн бұрын

いつでしょうね･･･！一緒に発表されたvoiceモードもまだ全員に公開されていないので 2~3か月後なのかなと個人的には思います🥲

@norimitsunaito6380 3 ай бұрын

いつも動画楽しく拝見させていただいております。PerplexityAIを使用してGPT-4oを使用するのと、オリジナルのGPT-4oだとどちらに課金した方が良いでしょうか。

@aivtuber2866 3 ай бұрын

ありがとうございます！用途によるかと思います！🤔 Perplexity AIは約3万文字以上になってくると、そのままモデルに入れているわけではないようなので長文を入力することが多い場合はあまり向いていなさそうです。後はGPTsとか、DALLE3、ADAなどが使用したい場合は、ChatGPTの方がおススメですかね🤔

@norimitsunaito6380 3 ай бұрын

@aivtuber2866 早速の返信ありがとうございます😊 なるほどですね。自分の今の用途だとGPT-4oが良さそうなので、そちらにしようと考えています。アドバイスありがとうございました。 Udemyの動画も分かりやすくて、とても良かったです。

@toshi68795 3 ай бұрын

なるほどまだGPT4oでは画像の生成はできないのですね。Dalle3なら作成できるのですね

@toshi68795 3 ай бұрын

Skypeに搭載されているCopilotで「猫の画像を作成して」と入力したら作成してくれました。そしてその画像にはPowered by Dalle3と表示されています。CopilotはGPTなんですかね。よくわからないです。

@aivtuber2866 3 ай бұрын

初めて使うとよくわかりませんよね🤔 CopilotはMicrosoftが提供していて、 MicrosoftはOpenAIと連携しているので OpenAIのDALLE3のモデルを使って画像生成ができるんですよね😊

@shimomato 3 ай бұрын

4oの画像生成とdalle3の画像生成が違うってこと？APIからだと4oの画像生成はできないですよね？

@aivtuber2866 3 ай бұрын

説明がわかりにくくてすみません🙇‍♂️ DALLE3とGPT4oの画像生成は別もので GPT4oの画像生成機能はまだリリースされておらず、動画で紹介しているのは、OpenAIが載せているデモになります！

@shutak7157 3 ай бұрын

漢字が綺麗に生成できるようになって欲しいです〜

@aivtuber2866 3 ай бұрын

日本語がどれくらいいけるのか　ってのが気になりますよね～

@bubumoment86 3 ай бұрын

画像とプロンプトを組み合わせて新しい画像を生成するという機能自体は、 Stable DiffusionやMidojourneyに既にあるものなので、特別に新しいものではないけれど、ようするにクオリティ次第だね

@aivtuber2866 3 ай бұрын

ありがとうございます🙇‍♂️ 画像生成あまり手触り感がなかったのですが現状の画像入力の生成だとクオリティがあまり高くない感じなんですかね🤔

@bubumoment86 3 ай бұрын

@@aivtuber2866 あくまで主観になってしまうけれど、 GPT4oが発表通りの性能を持っているのであれば、文字認識に関しては、GPT4oが、おそらくいちばん精度が高いように見えますただ、その結果生成される画のクオリティこそが肝心なので、それだけで画像生成としてGPT4oが有利のようには思えませんどういう画像を作りたいかにもよるけれど、個人的には、Midjourney > StableDiffusion > DALL E3 というクオリティ順位の認識。

@B0A0A 3 ай бұрын

いや、ぜんぜん違うよ

@bubumoment86 3 ай бұрын

@@B0A0A そうなんですねよければどう違うのかを教えていただけるとありがたいです

@B0A0A 3 ай бұрын

@@bubumoment86 キーボードのキーを押したらアルファベットの文字がディスプレイに表示されるそれと人間が文字を書くというのは違うというのは分かるだろう人間は文字を選んで書いているのだ SDは文字を元に概念を画像として具現化するただの変換器それと人間が絵を描くのが違うというのは分かるだろう人間には概念を選んでいるのだ 4oは直接望む絵を出力できるように学習されているつまり従来のSDなどと人間、そのどちらに近いかというと人間に近いつまるところ、SDはただのツールだが、4oはその存在がイラストレーターに片足を突っ込んでいるということこれは全く質的に異なるし、起きうる影響は段違いのものになる