ビジョンセンサーチャンネル

14:36

Segment Anything Modelの中身解説

2 ай бұрын

11:27

たった1枚の画像から3Dが!?　単眼カメラの深度推定（Monocular Depth Estimation） Depth Anything

6 ай бұрын

12:17

画像生成AIのしくみを直感的に解説　Stable Diffusion　VAE 拡散モデル

6 ай бұрын

15:05

CNN vs Vision Transformer　強み弱み　比較解説

6 ай бұрын

10:12

ディープラーニングの軽量化　枝刈り　知識蒸留

9 ай бұрын

9:48

画像の明るさ補正（Low-Light Enhancement）

10 ай бұрын

10:36

多視点画像からの３次元復元（フォトグラメトリとNeRF）

11 ай бұрын

17:08

画像のボケ修正（Deblurring）

11 ай бұрын

21:17

画像のノイズ除去(Denoising)

11 ай бұрын

11:03

SegmentAnything ざっくり解説

Жыл бұрын

8:56

トランスフォーマー（ViT）の中身　~ Multi-Head Attentionを画像処理で解説 ~

Жыл бұрын

9:43

トランスフォーマー（ViT）による物体検出　ざっくり解説

Жыл бұрын

10:34

ゼロショット学習（基盤モデルCLIP）

Жыл бұрын

15:46

ディープラーニングによる物体検出　YOLO

Жыл бұрын

15:41

画像処理で使う照明の基礎

Жыл бұрын

16:31

ディープラーニングによる異常検知（Anomaly Detection）　AutoEncoder　PatchCore

Жыл бұрын

17:00

Few-Shot 学習　- 学習データが少ないときのディープラーニング -

Жыл бұрын

18:29

ディープラーニングによるインスタンスセグメンテーション（Instance Segmentation）

Жыл бұрын

17:40

自己教師あり学習（Self-supervised learning） -ラベルつきデータが足りないときの機械学習-

2 жыл бұрын

17:14

半教師あり学習（Semi-supervised learning） -ラベルつきデータが少ないときの機械学習-

2 жыл бұрын

17:41

トランスフォーマー（VisionTransformer ViT）　～ディープラーニングの新しいかたち～

2 жыл бұрын

12:27

ニューラルネットワークによる回帰近似

2 жыл бұрын

13:24

ディープラーニングによるセグメンテーションのアルゴリズム

2 жыл бұрын

13:54

ディープラーニングによる物体検出のアルゴリズム

2 жыл бұрын

17:42

ディープラーニング　物体検出とセグメンテーションの考え方　基礎

2 жыл бұрын

12:18

深層学習のテクニック性能指標　ROC　AUC

3 жыл бұрын

20:42

画像処理　物体検出の基礎

3 жыл бұрын

18:10

画像処理　文字読み取りの基礎

3 жыл бұрын

12:38

画像処理　光沢について

3 жыл бұрын

Пікірлер

@tyhts0829 19 күн бұрын

わかりやすすぎる

@sekiwada6528 28 күн бұрын

EfficientAD について解説をお願いしたいです..PatchCoreよりも高レイテンシー, 高スコアを出しているようですが..

@どうも最強です 2 ай бұрын

うーん、10次関数とか言われてもわかんないです

@yu-wd8wx 2 ай бұрын

説明がわかりやすいのにBGMの音が気になって聞き取れない

@toyoo_cat 2 ай бұрын

トレーニング時の人手のアノテーションがネックですが、このような技術が進歩することで、人手の作業は減少するでしょうね。一方で、人がアノテーション/セグメンテーションしても判断が割れるケースや適用対象によって求める精度が異なるものもあります。基本的には、基盤モデルとファイチューニングの世界になると思いますが、この手の技術のゴールをどこに設定するかが難しいですね。使う人/提案する人が適切なゴール表現を選択しなければ、技術の過大評価/過少評価になります。

@user-tadano-p7k 2 ай бұрын

分かりやすいですね！とても助かります

@wqh95n3m5 4 ай бұрын

NNでどんな関数でも近似できることは知識としては知ってましたが、どうしてそうなるのか理解できました

@MasamitsuNakayama 4 ай бұрын

画像系のトランスフォーマーの教材を探していて、唯一見つかりました。大変勉強になります。本当にありがとうございます。ケーブルの事例が本当にわかりやすい

@patoru_patr 4 ай бұрын

イヤホンで聞いてると、マイクのボッボッって雑音がキツいです😢

@wqh95n3m5 5 ай бұрын

数学的な説明聞いても分かった気になるだけだったのが、この動画だと腑に落ちるような理解ができて非常にありがたいです！！

@wqh95n3m5 5 ай бұрын

数学的な理解よりもまずは直感的な理解をしたいので、このような動画は非常にありがたいです！！

@村田淳七八 5 ай бұрын

とても分かりやすい解説です。確認ですが物体検出についてはSSDのアルゴリズムというわけではなく、物体検出のスタンダートな概念ってことでよろしいでしょうか？SSDは確かバウンディングボックスなどの概念があった気がします。

@VisionSensorChannel 5 ай бұрын

コメントありがとうございます。おっしゃる通り、この動画はSSDに特化したものではなく、物体検出の基礎概念です。

@北穂高 5 ай бұрын

絵で解説してくれてめっちゃわかりやすい

@USBtybeA 5 ай бұрын

フーリエ変換

@toyoo_cat 5 ай бұрын

万能な単一技術はないので、うまい組み会わせがポイントになるのですね。

@toyoo_cat 5 ай бұрын

ステップバイステップで解りやすいですね。以前妻に原理を聞かれて説明に苦労したのですが、これなら解ってもらえそうです。

@shinsokayborg 6 ай бұрын

すごくわかりやすいです。なんでクエリ　キー　バリューの３つが必要なのか意味がわかりました。

@UNKNOWN-tu8bc 7 ай бұрын

内容は良いんだけど音声がひどすぎるｗ

@hightree0527 7 ай бұрын

めちゃくちゃに分かりやすい‼️ ありがとうございます‼️

@tokyobay_fishing 9 ай бұрын

大変勉強になります！トランスフォーマーのデメリットはあまり意識していませんでしたが納得の短所ですね！自然言語処理から興味を持ってたどり着いたのですが画像を文章として置き換えたら大変わかりやすい内容でした！

@食用お味噌汁 9 ай бұрын

人間の脳も刈り込みというプロセスがあるので最初は多量の脳細胞と結合が必要なのかもしれないですね

@AIxCE 9 ай бұрын

非常にわかりやすかったです！ありがとうございます

@motorado1 10 ай бұрын

よく参考にさせて頂いています、わかりやすくて素晴らしいです！ただ、音声にボッ、、ボッ、、、というようなノイズが入っていてイヤホンで聴くと耳が痛いです、、、音を良くしてもらえると最高です

@toyoo_cat 10 ай бұрын

学習データの作り方が難しそうですね。デジカメの撮影モード見たいな分類があれば上手く行きそうですね。階調分解能以下につぶれた暗部は復調できるでしょうか？

@VisionSensorChannel 10 ай бұрын

この方法では、暗すぎて諧調以下につぶれてしまった部分の復元は難しいとおもいます。その場合はインペインティングの問題設定になるので、それを解けるモデルと学習データが要りそうです。

@aslan_peko 10 ай бұрын

最近見始めました。大学で画像処理、認識を行っているのですがマジでわかりやすくて助かっています。ゆくゆくはなんとなく使うからなんとなくでも解って使うになれるよう学ばさせていただきます！

@doggy9745 10 ай бұрын

素晴らしい説明ありがとうございます。非常に助かります

@yuki1228 11 ай бұрын

いつも画像処理の基礎からの説明で勉強になります．人に近い感覚を模倣するというのが間接的なアプローチで工学的に非常に面白いと感じました．

@toyoo_cat 11 ай бұрын

いつも勉強になります。ありがとうございます。PSFに基づく方法は物理的には「復元」ですが、深層学習の方法は「復元、修正」と言うより「生成、創造、再構成」といったイメージを持ちます。目的が達成できていれば、どちらでもいい話かな😅?

@VisionSensorChannel 11 ай бұрын

コメントありがとうございます。最近は拡散モデルによる画像生成技術の進歩がすさまじいので、ボケ修正にこれらを使う研究もでてきてます。このようなやり方が今後主流になるかもしれませんね

@CURRY_DE_DAIBAKUSHO 11 ай бұрын

わかりやすい…。ありがとうございます。

@companiontravelingkitsune 11 ай бұрын

めちゃめちゃいい動画だな

@sekiwada6528 11 ай бұрын

トランスフォーマー導入検討していましたがエッジデバイスには向かないとの情報が参考になりました

@toyoo_cat 11 ай бұрын

勉強になりました。ありがとうございます。ノイズの特性は撮像デバイスにょって異なることを考えると、Noise2Noiseは撮像デバイスのバリエーションも多彩にしなければ汎化レベルが上がらないと考えてよいでしょうか？

@はやぽよ-u7v 11 ай бұрын

Yolov8 について解説していただきたいです

@nanashi6184 11 ай бұрын

レナ (画像データ)は使用しないほうが良いのでは？結構な問題になったような・・・

@inception9150 Жыл бұрын

大変すばらしい解説です。ありがとうございます。ただし、下記のような基本的な事についてまだ分かっていないので、ご教授いただければ、幸いです。 Q１．CNNの場合はfilterが『局所的』だと言われたのですが、Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、結局『局所的』ではないか? Q2. CNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの？という質問もありますね。　 Q3. TransformerもNeuralNetworkの一種で考えて良いのでしょうか。そうであれば、バッチ単位で訓練を行うかと思いますが、訓練用のバッチ画像はみんな内容がだいたい同じの画像ですか、あるいは内容がまちまちで、例えばお互いに回転関係、移動関係のある画像同士を利用して混錬を行うのでしょうか。

@VisionSensorChannel Жыл бұрын

A1. 局所的か大局的かは、特徴抽出時に関係性を見る範囲の違いを表します。 1層のCNNでは、コンボリューションカーネル内のみでの、画素間の関係性を見ます。 Transformerでは、パッチ間の関係性を見ますが、パッチ間の距離の制約はありません。 A2. Transformerの中身は、MLPの集まりなので、それぞれのMLPの重みが学習対象になります A3. Transformerもミニバッチで学習します。また（回転などの）変換は内部のMLPの重みで決まります。MLP一つあたりの変換方法はミニバッチ内で同じですが、MLPがたくさんあるので、いろいろな変換が組み合わされた状態になります学習では、これらのより良い組み合わせを決めるイメージです

@inception9150 Жыл бұрын

@@VisionSensorChannel 早速とても素晴らしいご教授本当にありがとうございます！　再度確認させていただきます。申し訳ございません。画像関係のアプリケーションには４大種類があるかと思います：１．Object認識・分類(人間か、車か) ２．指定したObjectの存在位置( 人間の居る場所と車の位置)特定(位置決め) ３．画像修復(inpainting, denoising) ４．訓練画像からこれまでのない画像生成ーーー人間の顔、シーン等(できればバラエティ性が富む)。私がよく付き合ってきたのは画像修復アプリで、通常、画像トレニングする時に、CNN系の場合、訓練画像中の対象objectの位置を揃える必要あります（位置ずれに関する許容範囲に限界）。そのための訓練画像のobject位置調整の仕事量は莫大です。 Transformerアーキテクチャーの場合、画像修復アプリのために、訓練画像においての対象objectの画像中の存在位置に関して気にならなくても宜しいでしょうか。どんなご見解、アイディアでも宜しいです。いただければ幸いと思います。

@VisionSensorChannel Жыл бұрын

@@inception9150 画像修復はあまり詳しくありませんが、私が知っているAutoencoderと似たものだとすると、学習時の位置ずれに対しての敏感さは、ネットワーク構造よりも損失関数に強く依存するとおもいます。同じ損失関数ならば、CNNを使う場合とTransformerの場合ではさほど変わらないとおもいます一方で、Transformerは画像パターンの知識を、CNNより多様かつ詳細に記憶できることが強みと言われています。なので大量の学習画像を使って「事前学習」することがよく行われます。そこからのアイデアですが、様々な種類の物体を、様々な位置・姿勢に配置した大量の画像データを人工的に使って、Transformerを事前学習しておき、アプリに応じた少量の画像でファインチューニングすることで、多少の位置ずれに対しても頑健な復元ができるようになるかもしれません

@inception9150 Жыл бұрын

@@VisionSensorChannel 貴重なご意見ありがとうございます。色々試したいですね。現在の所謂『deep learning』的な方法は適切な訓練サンプルの準備作成は通常の会社にとって大きな負担ですね。再度御礼を申し上げます。

@companiontravelingkitsune Жыл бұрын

一番分かりやすい

@深渡達也 Жыл бұрын

インスタンスセグメンテーションの各手法の特徴について、判り易くまとめていただいたていて助かりました。有り難うございます。

@pattosaideria Жыл бұрын

説明はわかりやすかったですが、音声がちょっと小さすぎですね。。

@hidsak7042 Жыл бұрын

このDNNやアルゴリズムの背後にある考え方/概念が大変分かり易くて、非常に有益でした！（巷にある情報は、単なる構造の説明や浅い概念に終始しているケースが多いので）次は、画像スタイル変換やGANについても噛み砕いて解説して頂けると嬉しいです。

@inception9150 Жыл бұрын

ここで紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません＝それはナンセンスからです。従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。この辺詳しい方にご説明いただければ幸いです。

@companiontravelingkitsune Жыл бұрын

4:00あたりの操作が意味不明ということですか？

@inception9150 Жыл бұрын

@@companiontravelingkitsune ご質問ありがとうございます。　正確に5:30あたりです。そして、CNNの場合はfilterが『局所的』だと言われたのですが、 Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、結局『局所的』ではないかという不明な点もあります。更にCNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの？という質問もありますね。　アディアやご意見あれば議論したいと思います。

@companiontravelingkitsune Жыл бұрын

各パッチ同士の内積をとるので、大域的な特徴を捉えていると言われているのではありませんか？

@companiontravelingkitsune Жыл бұрын

@@inception9150 「同じtoken~ナンセンスだから」のところは、説明で使われているマス目（マトリクス？表？）でいうところの対角成分は意味がない、ということですか？

@inception9150 Жыл бұрын

@@companiontravelingkitsune 言語翻訳の場合翻訳先を決めるために言語のcontextにおいて前後のtokenの相関係数×対応の各関連tokenの後、その和を取りますが、このKZbinの中では相関係数の和を取って同一tokenをかけて結果とします。統計分野と工学分野において、このような計算方法はありえないだと思います。

@shuns1044 Жыл бұрын

この動画の資料を会社の勉強会で使用したいのですが、切り取って使ってもいいですか？

@VisionSensorChannel Жыл бұрын

お役に立てればお使いください

@inception9150 Жыл бұрын

@@VisionSensorChannel Transform紹介動画本当にありがとうございます！　ただ、疑問または不明な点がありますので、ご解釈いただければ大変助かります。紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません＝それはナンセンスからです。従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。なので、無意味ではと思いますが、、、是非ご教授お願いします。

@VisionSensorChannel Жыл бұрын

ご質問ありがとうございます。自然言語処理と同じく、valueと重み（ここで言っているアテンションマップ）の内積をとるのが正しい手順になります。概念的な解説を心掛けたため、詳細内容としては説明抜けや間違いがあるかもしれません。より詳しい解説としては、以下のサイトなどを同時にご覧いただくことをお勧めします cvml-expertguide.net/terms/dl/seq2seq-translation/transformer/multi-head-attention/

@inception9150 Жыл бұрын

@@VisionSensorChannel 早速ご返答ありがとうございます。ご案内頂いたサイトを勉強させていただきます。

@ちょん吉 Жыл бұрын

横から失礼いたします．本動画ではわかりやすさのため入力画像と同じ5x5パッチと同じサイズのフィルタを得て互いの内積をとることでattentionを行うと説明されていますが，実際には図の説明から25x25になります．これを線形変換後のValue (サイズは25xW_outとする)との内積をとり，最終的にValueと同じ25xW_outサイズを持ち，特定の領域が強調されたattentioned valueを得ます．その後は説明の通りMulti-headによるattention valueの縦結合＋線形変換により最終的な出力（これはTransformer論文のモデル図のadd&Normブロックを見てもわかりますが，skip connectionを適用するため，線形変換前=25xW_inのサイズとなる）を得ます．概念的にはこちらの動画でなにも問題なく，NLPでのTransformerと同様の説明となっていると理解しています．こちらの動画も参照されるとよいかと思います． kzbin.info/www/bejne/o37EY4Ojjq-fedE