Comme ça vous en saurez un peu plus quand quelqu'un vous parlera de DeepSeek :) Un papier sorti il y a quelques jours qui compare le SFT et le RL : arxiv.org/abs/2501.17161
@crocodil.137 күн бұрын
AHLALALA J'ETAIS SUR! J'attendais votre video avec impatience depuis la la sortie de deepseekR1!!! Je verifiais tout les jours😂
@jenesaispasquoichoisir95124 күн бұрын
Encore une fois, excellente vidéo ! Merci énormément pour tes travaux
@djimnjoli71017 күн бұрын
Merci pour le taff👌🏾
@H6c6PlpM7 күн бұрын
J'attendais avec impatience ta vidéo sur ce modèle 🎉
@lesfreresdelaquote11768 күн бұрын
D'après le rapport technique, ils utilisent une double fonction de gain, l'une pour vérifier si le résultat produit est le bon et l'autre pour forcer le modèle à développer son raisonnement entre les balises ... Il y a un youtubeur qui a fait un test intéressant. Il a donné le même problème à R1 et à Claude. R1 a réussi là où Claude a échoué. Il a alors repris l'ensemble du raisonnement développé par R1 et il l'a donné à Claude tel quel. Et là Claude a trouvé la solution...
@alexandretl7 күн бұрын
Oui ça ne m'étonne pas, c'est ce que je dis à 4:00 : une fois le raisonnement fait, produire la réponse est beaucoup plus probable.
@guard43627 күн бұрын
Merci l'algorithme ! C'était génial continue
@alexandretl7 күн бұрын
Merci pour l'encouragement!
@wexorzphasam91227 күн бұрын
Juste trop fort en fait, une vidéo claire, efficace, sortie rapidement ... merci
@alexandretl7 күн бұрын
Merci!!
@steveblack24207 күн бұрын
Trop rapidement ;-) c'était juste de la propa de la Chine pour faire chuter Nvidia et par conséquent TSMC et de facto Taiwan
@TechKOFFI6 күн бұрын
Superbe vidéo. Merci pour l'explication ❤❤❤
@matoutout5 күн бұрын
Bravo, enfin une vidéo en français au niveau, super taf !
@alexandretl5 күн бұрын
Merci !
@Yo_HanSolo8 күн бұрын
Excellente vidéo. J'ai ici mieux compris pourquoi DeepSeek V3/R1 est sympa à étudier. Mieux que dans la vidéo de la chaine computerphile...
@CarpeMC7 күн бұрын
Merci beaucoup cette très bonne vidéo
@bernard95077 күн бұрын
Merci, beaucoup d'innovation dans le R1
@guillaume-g2u7l7 күн бұрын
merci cela innove aussi sans doute un suite d'applications coopératives entre l'I.A et l'humain...
@katsuyhorgimaq79068 күн бұрын
excellent
@tens85347 күн бұрын
Encore une très bonne vidéo. J'ai encore du mal à comprendre comment la rétrogradation du gradient pour renforcer les poids s'effectue dans le réseau, elle n'a lieu que lorsque la réponse est bonne ? On pourrait pas imaginer un système intermédiaire qui vient aussi pondérer la longueur de la chaîne de pensée dans la fonction de perte ? L'extracteur de réponse doit aussi augmenter le temps d'entraînement non si à chaque chaîne de pensée générée il faut extraire la réponse donnée.
@0sKiDo7 күн бұрын
Top !
@alexandretl6 күн бұрын
Merci, à lundi :)
@vangorp90568 күн бұрын
Merci.
@atha54697 күн бұрын
Merci ! Ce serait peut-être intéressant de parler un peu plus du projet Stargate, le budget est assez vertigineux
@alexandretl7 күн бұрын
Yes pourquoi pas! Après on n'en sait pas beaucoup, mais oui une vidéo "spéculation" peut-être intéressante, pour comparer ces 500 milliards avec le budget actuel et en déduire qu'est-ce qu'ils peuvent faire avec un tel budget.
@designlabcreativecloud93957 күн бұрын
Intéressant et innovant bravo aux chinois.
@MartialFossouo7 күн бұрын
Je suis persuadé que le RL sera le meilleur domaine de l'IA dans les prochaines années avec les combina comme le Deep RL
@crocodil.137 күн бұрын
C'est aussi mon opinion... ou en tout cas que l'apprentissage suppervisé a par nature une triste limite: il ne peut pas depasser l'humain...
@pierrew15327 күн бұрын
Merci pour cette video. Connait on la fiabilité en terme de sécurité des données (data privacy) pendant l'utilisation de DeepSeek en local ? A t on une idée globale du nombre et intensité des tests à ce sujet effectués par la communauté open source quand un nouveau modèle débarque ? Moi j'avoue que je reste réticent à utiliser DeepSeek R1 pour l'instant, meme en local..
@crocodil.137 күн бұрын
@pierrew1532 pourquoi ca? Deja c'est opensource alors laisse le tzmps aux gens d'éplucher, mais ca serait osé de balancer un teuc backdooré en open (apres bon ca s'est deja vu), mais surtout en le faisant tourner sur du ollama dans un docker franchement le risque semble ridiculement faible... et si ta vraiment peur, dans une vm!
@alexandretl6 күн бұрын
En local, par définition, aucun problème de sécurité de données. Il ne peut pas y avoir du code caché qui secrètement fait des choses louches, puisque DeepSeek publie tout sur HuggingFace en mode "ouvert" (ce n'est pas un logiciel sombre etc) Après, pour l'instant, faire tourner R1 en local en entier c'est un peu compliqué il faut du bon matos, mais d'ici peu ça devrait être plus abordable (notamment aussi avec les distillations possibles de ce modèle).
@adrienforbu51657 күн бұрын
"AGI at home" le model a quand même 600B (donc ça fait 600Go en mémoire ...). Les modèle distillés (llama qwen) sont plus appropriés pour le local avec un bon GPU.
@alexandretl7 күн бұрын
Oui bien sûr, j'ai vu une estimation passer de $6000 de hardware pour le faire tourner en Q8. Mais oui, le plus intéressant ça va être les versions distillées de R1 (Qwen-2.5-1.5B-R1 bat GPT-4o sur quelques benchmarks de maths). Et puis vu la tendance ces dernières années, ça ne va que aller dans le bon sens.
@modoumactarkane75447 күн бұрын
Pour kw l A n es pas connecté au caméra pour apprendre rapidement
@BenTascon7 күн бұрын
L'apprentissage par renforcement c'est ce qu'on appelle le dressage. C'est exactement comme cela que l'on procède pour dresser des animaux. Ce que j'ai fait pendant des années avec les chiens et les chevaux. D'ailleurs, les humains aussi apprennent comme cela. Comme toujours dans la tech et l'informatique lorsque l'humain crée quelque chose il se base sur ce qu'il connaît déjà et sur son propre fonctionnement.
@alexandretl6 күн бұрын
Oui, dans Reinforcement Learning, An introduction de Sutton et Barto (le must-have pour apprendre le RL), la première moitié traite du technique, la seconde moitié parle du lien entre le RL et l'apprentissage animal/humain
@JohanEQUIXOR7 күн бұрын
Dans la plupart de ses interviews, Yann LeCun répète en boucle que le Reinforcement lEarning n'est pas la solution pour améliorer les IA. Il semble que ce soit plus complexe que ça et qu'un mixte d'algorithmes soit plus pertinent.
@djimnjoli71017 күн бұрын
Bonne réflexion !🤟🏾
@alexandretl7 күн бұрын
Oui lui il développe toute une série de modèles (la famille JEPA). J'ai l'impression qu'il mise plus sur la "compréhension des données" . Mais il est un peu isolé dans cette position quand même, il faut le dire.
@JohanEQUIXOR7 күн бұрын
@@alexandretl Tout à fait. Quand on lit les papiers sur JEPA, c'est une sorte de moelle "monde" de ce que je comprends et tout le monde converge vers des modèles "monde" non ?
@crocodil.137 күн бұрын
@@JohanEQUIXOR en effet j'allais faire la meme reflexion.... dautant que a mon maigre niveau, il me semble evident que l'apprentissage supervisé est par nature condamnée a ne jamais pouvoir depasser l'homme... (en considerant rlhf comme du pseudo rl en effet) Apres concernant l'apprentissage non supervisé VS par renforcement .... les deux ont sûrement un interet conjointement ? En tout cas je vois mal comment un jours on pourrait finir par sortir le fantasme de l'iag seulement en supervisé..... la facon de presenter les choses ici me semble ultra interessante, l'apprentissage supervise pourrait etre une sorte de tremplin pour la suite!
@gno75538 күн бұрын
Je pensais que l'apprentissage par renforcement restait du domaine expérimentale uniquement dans les laboratoires. Mais fotce est de constater le contraire.
@JohanEQUIXOR7 күн бұрын
DeepMind en fait un usage dans pratiquement tous leurs produits.
@steveblack24207 күн бұрын
Ta vidéo a vieillie tellement vite 😂😂 mdrr les Chinois ont juste volé les données d'OpenAI
@crocodil.137 күн бұрын
@@steveblack2420 c'est pas vraiment sur...dur de savoir qui a raison dans cette affaire, openai a tout interet a calomnier aussi, et j'ai trouvé que cette citation faisais réfléchir dans le fond: « Ils peuvent voler des choses à tout le monde et engloutir toutes les ressources. Mais personne ne peut leur appliquer le même remède », a ironisé sur X l’ex-ingénieure de Google Timnit Gebru
@alexandretl6 күн бұрын
En 2 mots : 1) le fond de ma vidéo n'était pas DeepSeek 2) je maintiens le fait que DeepSeek-V3 est une prouesse. Le buzz autour de DeepSeek est assez surprenant (et pas très justifié, comme tous les buzzs finalement) étant donné que V3/R1 ont été annoncé en décembre. J'ai couvert dans d'anciennes vidéos plusieurs papiers proposés par DeepSeek, je t'invite à les regarder. Tu verras que DeepSeek est une équipe très dynamique et qui propose des idées très intéressantes. De plus, finalement je ne sais pas si tu l'as regardé, mais ma vidéo n'est pas sur DeepSeek, il se trouve que c'est DeepSeek en premier qui a publié ce type de recherches de manière ouverte, c'est juste ça. Le message de la vidéo ce n'est pas du tout DeepSeek, mais plutôt le RL (cf. le titre). Concernant ton commentaire, oui bien sûr. Mais comme tu as un avis extrêmement tranché, je me dis que tu dois être très au courant de ce qui se passe dans la recherche, donc tu n'es pas sans savoir que la distillation est une technique *scientifiquement* très intéressante. Mais ça n'empêche pas que oui, DeepSeek a fait une prouesse. Et légalement, oui DeepSeek marche sur une ligne rouge, tout comme OpenAI depuis quelques années (et encore récemment avec KZbin). Au plaisir de discuter avec toi.
@crocodil.137 күн бұрын
Je me faisais la reflexion en m'endormant lautre jour, existe il des models qui reflechissent sans s'arreter, qui parlent "quand ils ont envie" (je veux dire pas forcement le shema CoT -> reponse mais qqch genre Cot -> reponse -> Cot reponse, etc etc) , et ou les interventions humaines seraient comme des "interruption" que le modele peut prendre en compte..... ou pas? Bon pour entrainer ca bonjour... mais le rendu pourrait etre tres naturel, si le but est de simuler une réelle interaction "humaine" et non pas une interaction "homme machine" Puis des CoT avec des tool dans tout les sens waaawww, rendez vous en 2025 pour cet aspect clairement!!
@alexandretl6 күн бұрын
Oui des CoT avec utilisation d'outils ça semble une prochaine étape logique, d'ailleurs je crois que R1 peut déjà faire des recherches internent pendant sa réflexion. Mais oui ton idée est intéressante, c'est sûr que le schéma CoT->réponse c'est bien mais c'est un peu "académique" ou "scolaire" dans le sens où c'est pour donner une réponse et puis stop. Après une des limites qui va se poser c'est la longueur de contexte, c'est assez dur pour le modèle de traiter des input très longues donc pas sûr qu'il se souvienne de ce qu'il a dit il y a 50k mots en arrière.. Mais les chercheurs y travaillent
@crocodil.136 күн бұрын
@@alexandretl top coconut😍 je suis entrain de lire un papier la dessus c'est exactement ca on dirait! Vraiment trop bien hate de voir si ca va emerger😍😍😍😍 vraiment je suis hyper entousiaste de ce genre de concepts
@alexandretl5 күн бұрын
@ Oui il y a de quoi!
@superresistant07 күн бұрын
et maintenant Qwen
@savewater98366 күн бұрын
Donc tu es en train de me dire qu on est en train dz creer un logiciel qui pense à ta place.
@Bananeflambee-qh1xc7 күн бұрын
Pourquoi parler de retour comme s'il s'agissait d'une techno ayant trouver un renouveau ?
@alexandretl7 күн бұрын
J'en parle à la fin de la vidéo, il y a eu un pic en 2015-2016 après lequel beaucoup n'y ont plus cru. Oui certains ont gardé l'espoir mais le RL n'était plus du tout sur le devant de la scène.
@Bananeflambee-qh1xc7 күн бұрын
@@alexandretl Ah d'accord, j’avais pas fait gaffe ! Mais c’est quand même surprenant que cette méthode ait été écartée à un moment, parce qu’elle propose clairement le mécanisme le plus intéressant. C’est ce qui se rapproche le plus de l’apprentissage réel, et en plus, c’est la seule qui permet une vraie créativité, donc des raisonnements innovants pour résoudre des problèmes.
@alexandretl6 күн бұрын
@@Bananeflambee-qh1xc Oui entièrement d'accord
@goldenfor7 күн бұрын
Ne demande jamais a un français de t'expliquer quoi que ce soi..