LLMはどう知識を記憶しているか

LLMはどう知識を記憶しているか | Chapter 7, 深層学習

Рет қаралды 52,976

3Blue1BrownJapan

Күн бұрын

Пікірлер: 59

@Kai-kw4yt 5 күн бұрын

こんな分かりやすい解説がKZbinで見れる時代凄い全部は理解できなくても高卒レベルの知識があれば殆ど理解可能なのが嬉しい

@underscoress 4 ай бұрын

youtube普段はほとんど倍速で観てるけど、このチャンネルのこのシリーズは等倍で観ても理解が追いつかなくなる

@ymgc6873 Ай бұрын

難しい事物について複雑性を保ったまま理解するのがどれほど難しいかを自分に叩き込んでくれる優良チャンネル…。脳にストレスがかかって気持ちイイ…♡

@chiakit 3 ай бұрын

楽しみにしていました！毎回1度見ただけではわからないのでオフラインに保存して何度も見ています！

@ka-vb3we 4 ай бұрын

待ってました！ありがとうございます！

@シンラ-c9n 3 ай бұрын

いつ投稿されるかと楽しみにしてた！ついにきた！

@sibain_wuw 4 ай бұрын

待ってました

@MK_ASI0 4 ай бұрын

素晴らしい、私も疑問に思っていた。

@non-mtg 4 ай бұрын

自分がこの分野を勉強した数年前よりもLLMの中身が分かってきてるの科学の進歩を感じられてとても良い活性化関数はGPT-3のレベルでもReLU使ってるんだ

@Mos-u4r 3 ай бұрын

GPTシリーズはすべてGELUを使用していたと思います

@machida5114 3 ай бұрын

@@Mos-u4r GELUの方が導関数が連続で学習効率が良いらしい。

@way6202 3 ай бұрын

いい動画をありがとう

@dharmazeroalpha 3 ай бұрын

特に19分過ぎからのジョンソン-リンデンストロースの補題についての解説は非常に重要ですね。LLMがどれだけ汎用人工知能GAIに肉薄できるのか興味深い示唆になっています。

@hitoshiyamauchi 3 ай бұрын

翻訳動画ありがとうございました！😀

@まさぽこP 3 ай бұрын

保存できる次元数が多いので、同じトークンでも周りのトークンによる影響を細かく学習できるってことかな。例えば、「村」ってことばでも現実世界なのか、日本の村なのか、海外の村なのか、異世界の村なのかって感じで影響に対するフラグや記憶次元を確保できる。だから人間の脳と同じように正確に推論ができると

@魚釣り-r2e 12 күн бұрын

それはアテンション機構な。

@クリストフェル 4 күн бұрын

n次元空間上で直角条件を緩めて疑似的に次元数を増やすことができるという法則は目から鱗ですが上手いこと相互干渉を防ぐ最適化は面倒そうだなと思う、それと固有名詞を意味空間に独立要素として入れるのはあまりに勿体ないと思います

@merdekaataumati1949 3 ай бұрын

17:10 ここからのジョンソン-リンデンシュトラウスのレンマの流れは、目からうろこだった。 N次元空間では、N個の概念しか思考できないと思ってた。実際は、e^(ε N)もの概念を思考できるのか。

@shoronpoo 3 ай бұрын

W↑ relu W↓を通って重みの中に記憶された情報が加わるのねそれと重みや埋め込みの次元を上げると、線形以上のオーダーで蓄えられる情報が増えていく。これによりパラメータを増やすことによりどんどん賢くなっていくということか

@魚釣り-r2e 12 күн бұрын

そんな安直じゃないから😂reluには勾配消失という致命的な欠陥がある

@1日分のマルチビタミン-g6y 3 ай бұрын

Good Job

@食用お味噌汁 3 ай бұрын

神経回路を模倣した計算っていうアイデアは昔からあるけど、ようやく現実的に応用ができるレベルまで発展しましたね既存のアーキテクチャの計算資源で十分成果が出ているのでコンセプトとしては本当に正しいものだったと思います

@daitaicho_5927 12 күн бұрын

次のチャプターが待ちきれない(´・ω・｀)

@徳川慶喜-u6o 3 ай бұрын

使えてるけど説明できない部分があるのが驚きだった過去の麻酔のメカニズムのような

@lugensmotacillaalba2472 3 ай бұрын

ふむふむ。なるほどね🤔

@machida5114 4 ай бұрын

非線形述語層が意味的知識を保持しているということですね。😎

@machida5114 3 ай бұрын

非線形述語が意味的判断基準を獲得していると思われます。ここで、「意味」とは、行動(/発語)する論理的根拠、つまり行動(/発語)因果力を指します。

@視聴用-n9w 3 ай бұрын

高次元空間は3次元空間で多面体で表せられるのではないか？ 4次元空間は正8面体で表せられると思う。正8面体は角から線分(ベクトル)が4本繋がっているため、4本の軸で表わせられる。例えば3次元空間は正6面体で表せられる。正6面体は角から線分(ベクトル)が3本繋がっているため3本の軸で表わせられる。これらを利用すれば3次元空間で高次元空間を表すことも可能になるかもしれない。高次元空間の極限は球なのかもしれない。

@raise895 Ай бұрын

18:10 辺りからの部分って、100次元の乱数10000個を調整したら、それぞれの内積が90度近辺に収まることから、一個の乱数が一つの次元とほぼ同義になって、100次元のようで実は10000次元を表現できているって認識であってる？

@sy6047 3 ай бұрын

一回だけだと完全には分からなくなってきた。イメージだけはベクトルの説明で理解できたけど… 最先端の分野だからもっと解明が進めば何してるのか分かってくるのかな。

@wswsan 3 ай бұрын

3B1Bオリジナルのこの次の動画, めちゃくちゃ興味あるけど中盤から理解追いつかなくなってる

@食用お味噌汁 3 ай бұрын

この言語ベクトルって、途中までの学習で止めると多分why japanese people!?ってAIも感じるんだと思う😂 ベクトル的にこうきたらこうなんじゃねえの！？って

@menmaetv 3 ай бұрын

出来たらGPTの学習のアルゴリズムが知りたいです

@machida5114 3 ай бұрын

普通のバックプロパゲーションです。

@capyzo 3 ай бұрын

GPTのパラメータ数ってこういうことなんだと、ちょっと解像度上がるだけですごいゾクゾクします！直交じゃなくて89-91°にすることで表現力が爆上がりするアイデアもマジすごい！セレンディピティ的なことがおこってるんでしょうか？

@うぅろん茶 3 ай бұрын

数式がたくさんあって難しく感じるけど、はい〜いいえの質問を何万項目もしてるって考えれば分かった気になれそうな…

@goc-2611 3 ай бұрын

分かった気になってるだけってことを頭に留めておいてね……(遠い目)

@matsuda-x8u Ай бұрын

このような動画はどのように作るのでしょうか？ blenderとかでしょうか？

@shirasu_senmu Ай бұрын

この動画はただ本家の動画を和訳してるだけ

@matsuda-x8u Ай бұрын

ご返信ありがとうございます。承知しました。

@yumatv297 17 күн бұрын

概要欄にmanimを使っていると書いてあります

@matsuda-x8u 16 күн бұрын

@@yumatv297 気がつきませんでした。ありがとうございます。

@ああ-k5z1r 3 ай бұрын

コウメ太夫ってすごいんだなー

@クレオパトラ-y5f 3 ай бұрын

これってノーベル賞に絡む？

@ぺんぎん-k3c 3 ай бұрын

Machine Learningの研究がノーベル賞取りましたね！

@machida5114 3 ай бұрын

絡みません。

@さっし-o5m 3 ай бұрын

このチャンネルの動画9割理解出来んけど見てる

@motoki7419 3 ай бұрын

それは素晴らしいことですね！その繰り返しがあなたの脳内MLPに情報を与えているでしょう

@本堂啓三郎 3 ай бұрын

@@motoki7419最高。希望がある。

@kosetei1 3 ай бұрын

Chapter6までどこいった...

@シンラ-c9n 3 ай бұрын

普通にあるよ？

@kosetei1 3 ай бұрын

@@シンラ-c9n 普通にあったわ

@aocchi1638 17 күн бұрын

まいどわかるようでわからない解説

@user-ml4qd8kh4l 3 ай бұрын

8:50でB↑=-1にして、10:50でRELUで+1.0以外を吹っ飛ばしてるようだけど、B↑が-1なのはたまたまじゃない？反例として、8:50の上から3つ目のB↑が+5.0だから通っちゃってるけど、結果が+1.5ってことはW↓Eiは-4.0だったってことになるはず。つまりマイケルジョーダンと全く関係ない情報も、B↑のさじ加減によって通っちゃってるんだがどういうことだ？仮に8:50の上から1つ目しか見ないとしても、B↑のさじ加減で変わるくない？それとも、ニューラルネットワークだから良い具合にB↑も調整してくれるのかな？わからんというかそもそも、17:00のように１つだけにマイケルジョーダンの意味が入ってるって思考ロックが間違ってるのか？うーん、わからん

@Munodesu-h9e 3 ай бұрын

>マイケルジョーダンと全く関係ない情報も、B↑のさじ加減によって通っちゃってるんだがどういうことだ？バイアスのさじ加減で変わるはその通りで表現力として単回帰分析であるようなy=ax+bの形で切片bがあったほうが表現として便利そうだと感じませんか？このパートの概念的な理解として重要なことは保持される情報は重みとバイアスとその後の活性化関数などで構成されるということかとあと、バイアスももちろんパラメータなので学習の過程でいい感じに調整されます。

@魚釣り-r2e 12 күн бұрын

バイアスも誤差逆伝播で調整されるから大丈夫