DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement

Рет қаралды 18,854

Күн бұрын

Пікірлер: 77

@alexandretl 8 күн бұрын

Comme ça vous en saurez un peu plus quand quelqu'un vous parlera de DeepSeek :) Un papier sorti il y a quelques jours qui compare le SFT et le RL : arxiv.org/abs/2501.17161

@crocodil.13 7 күн бұрын

AHLALALA J'ETAIS SUR! J'attendais votre video avec impatience depuis la la sortie de deepseekR1!!! Je verifiais tout les jours😂

@jenesaispasquoichoisir9512 4 күн бұрын

Encore une fois, excellente vidéo ! Merci énormément pour tes travaux

@djimnjoli7101 7 күн бұрын

Merci pour le taff👌🏾

@H6c6PlpM 7 күн бұрын

J'attendais avec impatience ta vidéo sur ce modèle 🎉

@lesfreresdelaquote1176 8 күн бұрын

D'après le rapport technique, ils utilisent une double fonction de gain, l'une pour vérifier si le résultat produit est le bon et l'autre pour forcer le modèle à développer son raisonnement entre les balises ... Il y a un youtubeur qui a fait un test intéressant. Il a donné le même problème à R1 et à Claude. R1 a réussi là où Claude a échoué. Il a alors repris l'ensemble du raisonnement développé par R1 et il l'a donné à Claude tel quel. Et là Claude a trouvé la solution...

@alexandretl 7 күн бұрын

Oui ça ne m'étonne pas, c'est ce que je dis à 4:00 : une fois le raisonnement fait, produire la réponse est beaucoup plus probable.

@guard4362 7 күн бұрын

Merci l'algorithme ! C'était génial continue

@alexandretl 7 күн бұрын

Merci pour l'encouragement!

@wexorzphasam9122 7 күн бұрын

Juste trop fort en fait, une vidéo claire, efficace, sortie rapidement ... merci

@alexandretl 7 күн бұрын

Merci!!

@steveblack2420 7 күн бұрын

Trop rapidement ;-) c'était juste de la propa de la Chine pour faire chuter Nvidia et par conséquent TSMC et de facto Taiwan

@TechKOFFI 6 күн бұрын

Superbe vidéo. Merci pour l'explication ❤❤❤

@matoutout 5 күн бұрын

Bravo, enfin une vidéo en français au niveau, super taf !

@alexandretl 5 күн бұрын

Merci !

@Yo_HanSolo 8 күн бұрын

Excellente vidéo. J'ai ici mieux compris pourquoi DeepSeek V3/R1 est sympa à étudier. Mieux que dans la vidéo de la chaine computerphile...

@CarpeMC 7 күн бұрын

Merci beaucoup cette très bonne vidéo

@bernard9507 7 күн бұрын

Merci, beaucoup d'innovation dans le R1

@guillaume-g2u7l 7 күн бұрын

merci cela innove aussi sans doute un suite d'applications coopératives entre l'I.A et l'humain...

@katsuyhorgimaq7906 8 күн бұрын

excellent

@tens8534 7 күн бұрын

Encore une très bonne vidéo. J'ai encore du mal à comprendre comment la rétrogradation du gradient pour renforcer les poids s'effectue dans le réseau, elle n'a lieu que lorsque la réponse est bonne ? On pourrait pas imaginer un système intermédiaire qui vient aussi pondérer la longueur de la chaîne de pensée dans la fonction de perte ? L'extracteur de réponse doit aussi augmenter le temps d'entraînement non si à chaque chaîne de pensée générée il faut extraire la réponse donnée.

@0sKiDo 7 күн бұрын

Top !

@alexandretl 6 күн бұрын

Merci, à lundi :)

@vangorp9056 8 күн бұрын

Merci.

@atha5469 7 күн бұрын

Merci ! Ce serait peut-être intéressant de parler un peu plus du projet Stargate, le budget est assez vertigineux

@alexandretl 7 күн бұрын

Yes pourquoi pas! Après on n'en sait pas beaucoup, mais oui une vidéo "spéculation" peut-être intéressante, pour comparer ces 500 milliards avec le budget actuel et en déduire qu'est-ce qu'ils peuvent faire avec un tel budget.

@designlabcreativecloud9395 7 күн бұрын

Intéressant et innovant bravo aux chinois.

@MartialFossouo 7 күн бұрын

Je suis persuadé que le RL sera le meilleur domaine de l'IA dans les prochaines années avec les combina comme le Deep RL

@crocodil.13 7 күн бұрын

C'est aussi mon opinion... ou en tout cas que l'apprentissage suppervisé a par nature une triste limite: il ne peut pas depasser l'humain...

@pierrew1532 7 күн бұрын

Merci pour cette video. Connait on la fiabilité en terme de sécurité des données (data privacy) pendant l'utilisation de DeepSeek en local ? A t on une idée globale du nombre et intensité des tests à ce sujet effectués par la communauté open source quand un nouveau modèle débarque ? Moi j'avoue que je reste réticent à utiliser DeepSeek R1 pour l'instant, meme en local..

@crocodil.13 7 күн бұрын

@pierrew1532 pourquoi ca? Deja c'est opensource alors laisse le tzmps aux gens d'éplucher, mais ca serait osé de balancer un teuc backdooré en open (apres bon ca s'est deja vu), mais surtout en le faisant tourner sur du ollama dans un docker franchement le risque semble ridiculement faible... et si ta vraiment peur, dans une vm!

@alexandretl 6 күн бұрын

En local, par définition, aucun problème de sécurité de données. Il ne peut pas y avoir du code caché qui secrètement fait des choses louches, puisque DeepSeek publie tout sur HuggingFace en mode "ouvert" (ce n'est pas un logiciel sombre etc) Après, pour l'instant, faire tourner R1 en local en entier c'est un peu compliqué il faut du bon matos, mais d'ici peu ça devrait être plus abordable (notamment aussi avec les distillations possibles de ce modèle).

@adrienforbu5165 7 күн бұрын

"AGI at home" le model a quand même 600B (donc ça fait 600Go en mémoire ...). Les modèle distillés (llama qwen) sont plus appropriés pour le local avec un bon GPU.

@alexandretl 7 күн бұрын

Oui bien sûr, j'ai vu une estimation passer de $6000 de hardware pour le faire tourner en Q8. Mais oui, le plus intéressant ça va être les versions distillées de R1 (Qwen-2.5-1.5B-R1 bat GPT-4o sur quelques benchmarks de maths). Et puis vu la tendance ces dernières années, ça ne va que aller dans le bon sens.

@modoumactarkane7544 7 күн бұрын

Pour kw l A n es pas connecté au caméra pour apprendre rapidement

@BenTascon 7 күн бұрын

L'apprentissage par renforcement c'est ce qu'on appelle le dressage. C'est exactement comme cela que l'on procède pour dresser des animaux. Ce que j'ai fait pendant des années avec les chiens et les chevaux. D'ailleurs, les humains aussi apprennent comme cela. Comme toujours dans la tech et l'informatique lorsque l'humain crée quelque chose il se base sur ce qu'il connaît déjà et sur son propre fonctionnement.

@alexandretl 6 күн бұрын

Oui, dans Reinforcement Learning, An introduction de Sutton et Barto (le must-have pour apprendre le RL), la première moitié traite du technique, la seconde moitié parle du lien entre le RL et l'apprentissage animal/humain

@JohanEQUIXOR 7 күн бұрын

Dans la plupart de ses interviews, Yann LeCun répète en boucle que le Reinforcement lEarning n'est pas la solution pour améliorer les IA. Il semble que ce soit plus complexe que ça et qu'un mixte d'algorithmes soit plus pertinent.

@djimnjoli7101 7 күн бұрын

Bonne réflexion !🤟🏾

@alexandretl 7 күн бұрын

Oui lui il développe toute une série de modèles (la famille JEPA). J'ai l'impression qu'il mise plus sur la "compréhension des données" . Mais il est un peu isolé dans cette position quand même, il faut le dire.

@JohanEQUIXOR 7 күн бұрын

@@alexandretl Tout à fait. Quand on lit les papiers sur JEPA, c'est une sorte de moelle "monde" de ce que je comprends et tout le monde converge vers des modèles "monde" non ?

@crocodil.13 7 күн бұрын

@@JohanEQUIXOR en effet j'allais faire la meme reflexion.... dautant que a mon maigre niveau, il me semble evident que l'apprentissage supervisé est par nature condamnée a ne jamais pouvoir depasser l'homme... (en considerant rlhf comme du pseudo rl en effet) Apres concernant l'apprentissage non supervisé VS par renforcement .... les deux ont sûrement un interet conjointement ? En tout cas je vois mal comment un jours on pourrait finir par sortir le fantasme de l'iag seulement en supervisé..... la facon de presenter les choses ici me semble ultra interessante, l'apprentissage supervise pourrait etre une sorte de tremplin pour la suite!

@gno7553 8 күн бұрын

Je pensais que l'apprentissage par renforcement restait du domaine expérimentale uniquement dans les laboratoires. Mais fotce est de constater le contraire.

@JohanEQUIXOR 7 күн бұрын

DeepMind en fait un usage dans pratiquement tous leurs produits.

@steveblack2420 7 күн бұрын

Ta vidéo a vieillie tellement vite 😂😂 mdrr les Chinois ont juste volé les données d'OpenAI

@crocodil.13 7 күн бұрын

@@steveblack2420 c'est pas vraiment sur...dur de savoir qui a raison dans cette affaire, openai a tout interet a calomnier aussi, et j'ai trouvé que cette citation faisais réfléchir dans le fond: « Ils peuvent voler des choses à tout le monde et engloutir toutes les ressources. Mais personne ne peut leur appliquer le même remède », a ironisé sur X l’ex-ingénieure de Google Timnit Gebru

@alexandretl 6 күн бұрын

En 2 mots : 1) le fond de ma vidéo n'était pas DeepSeek 2) je maintiens le fait que DeepSeek-V3 est une prouesse. Le buzz autour de DeepSeek est assez surprenant (et pas très justifié, comme tous les buzzs finalement) étant donné que V3/R1 ont été annoncé en décembre. J'ai couvert dans d'anciennes vidéos plusieurs papiers proposés par DeepSeek, je t'invite à les regarder. Tu verras que DeepSeek est une équipe très dynamique et qui propose des idées très intéressantes. De plus, finalement je ne sais pas si tu l'as regardé, mais ma vidéo n'est pas sur DeepSeek, il se trouve que c'est DeepSeek en premier qui a publié ce type de recherches de manière ouverte, c'est juste ça. Le message de la vidéo ce n'est pas du tout DeepSeek, mais plutôt le RL (cf. le titre). Concernant ton commentaire, oui bien sûr. Mais comme tu as un avis extrêmement tranché, je me dis que tu dois être très au courant de ce qui se passe dans la recherche, donc tu n'es pas sans savoir que la distillation est une technique *scientifiquement* très intéressante. Mais ça n'empêche pas que oui, DeepSeek a fait une prouesse. Et légalement, oui DeepSeek marche sur une ligne rouge, tout comme OpenAI depuis quelques années (et encore récemment avec KZbin). Au plaisir de discuter avec toi.

@crocodil.13 7 күн бұрын

Je me faisais la reflexion en m'endormant lautre jour, existe il des models qui reflechissent sans s'arreter, qui parlent "quand ils ont envie" (je veux dire pas forcement le shema CoT -> reponse mais qqch genre Cot -> reponse -> Cot reponse, etc etc) , et ou les interventions humaines seraient comme des "interruption" que le modele peut prendre en compte..... ou pas? Bon pour entrainer ca bonjour... mais le rendu pourrait etre tres naturel, si le but est de simuler une réelle interaction "humaine" et non pas une interaction "homme machine" Puis des CoT avec des tool dans tout les sens waaawww, rendez vous en 2025 pour cet aspect clairement!!

@alexandretl 6 күн бұрын

Oui des CoT avec utilisation d'outils ça semble une prochaine étape logique, d'ailleurs je crois que R1 peut déjà faire des recherches internent pendant sa réflexion. Mais oui ton idée est intéressante, c'est sûr que le schéma CoT->réponse c'est bien mais c'est un peu "académique" ou "scolaire" dans le sens où c'est pour donner une réponse et puis stop. Après une des limites qui va se poser c'est la longueur de contexte, c'est assez dur pour le modèle de traiter des input très longues donc pas sûr qu'il se souvienne de ce qu'il a dit il y a 50k mots en arrière.. Mais les chercheurs y travaillent

@crocodil.13 6 күн бұрын

@@alexandretl top coconut😍 je suis entrain de lire un papier la dessus c'est exactement ca on dirait! Vraiment trop bien hate de voir si ca va emerger😍😍😍😍 vraiment je suis hyper entousiaste de ce genre de concepts

@alexandretl 5 күн бұрын

@ Oui il y a de quoi!

@superresistant0 7 күн бұрын

et maintenant Qwen

@savewater9836 6 күн бұрын

Donc tu es en train de me dire qu on est en train dz creer un logiciel qui pense à ta place.

@Bananeflambee-qh1xc 7 күн бұрын

Pourquoi parler de retour comme s'il s'agissait d'une techno ayant trouver un renouveau ?

@alexandretl 7 күн бұрын

J'en parle à la fin de la vidéo, il y a eu un pic en 2015-2016 après lequel beaucoup n'y ont plus cru. Oui certains ont gardé l'espoir mais le RL n'était plus du tout sur le devant de la scène.

@Bananeflambee-qh1xc 7 күн бұрын

@@alexandretl Ah d'accord, j’avais pas fait gaffe ! Mais c’est quand même surprenant que cette méthode ait été écartée à un moment, parce qu’elle propose clairement le mécanisme le plus intéressant. C’est ce qui se rapproche le plus de l’apprentissage réel, et en plus, c’est la seule qui permet une vraie créativité, donc des raisonnements innovants pour résoudre des problèmes.

@alexandretl 6 күн бұрын

@@Bananeflambee-qh1xc Oui entièrement d'accord