Llama 3.3, pourquoi et comment mettre ce LLM en production + déploiement de modèles non censurés

Рет қаралды 10,530

Күн бұрын

Dans cette vidéo, nous verrons pourquoi le déploiement de grands modèles de langage (LLM) open source peut être un atout majeur pour vos projets et comment mettre en production ces modèles.
Nous détaillerons les caractéristiques techniques qu'une machine doit avoir pour supporter de tels modèles, avec un focus particulier sur les spécifications nécessaires pour déployer Llama 3.3 70B.
Nous comparerons également les coûts des machines entre AWS et Runpod. Puis nous détaillerons l'utilisation de la librairie vLLM , librairie permettant de mettre en production Llama 3.3 70B (ou tout autre LLM) sur une machine louée sur le cloud.
L'approche de mise en production décrite dans cette vidéo étant générique et flexible, nous verrons ensuite comment mettre en production des modèles non censurés.

Пікірлер

@tipunch974 Күн бұрын

Un grand bravo pour la qualité de tes vidéos !! Une vidéo sur le déploiement de vLLM avec helm et K8S ça serait top ! 👏

@ia-maxiweb-nc 14 күн бұрын

Bravo, j'aime cette partie qui explique le coût. C'est un moment fastidieux mais important avant de se lancer dans la mise en place d'un serveur. Merci

@dataingenieur 14 күн бұрын

Merci pour ce retour :)

@pategoubusinesscenter1307 13 күн бұрын

Je sais pas comment te dire Merci, Néanmoins je viens de m'abonner. Actuellement je travailles sur un projet RAG et à terme on voudrait fine tuner un model afin de le déployer sur no propres serveurs. Avec ta vidéo tu viens m'aider énormément pour ce qui est de l'hébergement. Maintenant si tu pouvais faire un projet sur le déploiement avec docker ou kubenertis ou un projet sur comment fitunner un llm franchement je serai ravi. même si c'est une formation je suis prêt a payer. Encore merci beaucoup et ne t'arrête pas stp. Merci encore depuis le Cameroun

@dataingenieur 12 күн бұрын

Merci pour ton commentaire et ton abonnement, ça me fait vraiment plaisir de recevoir ce genre de retour. En ce moment je fais une vidéo sur Docker, j'ai prévu de faire bientôt une vidéo sur les RAG également mais je ne peux pas te donner de délais précis. Pour le fine tuning de llm je n'avais pas prévu de faire une vidéo rapidement sur le sujet mais ça me semble être une très bonne idée. Je vais essayer d'optimiser un peu plus mon agenda pour accélérer la production de vidéos. Bon courage dans ton projet !

@pategoubusinesscenter1307 12 күн бұрын

@@dataingenieur je te remercie d'avance et j'attends avec impatience tes prochaines vidéos

@kongawilly 13 күн бұрын

Vidéo de très bonne qualité. Merci . Hâte de voir les autres videos…

@dataingenieur 13 күн бұрын

Merci beaucoup !!

@coriolanrat4056 18 күн бұрын

Un puit de science ce compte. Hate de voir la suite et les prochaines vidéos. Vous avez gagné un follower!

@dataingenieur 18 күн бұрын

Merci 🙏J'espère que les prochaines vidéos vous plaieront.

@TheChinorobert 16 күн бұрын

vidéo très complète de l'explication de la problématique à la mise en oeuvre !

@dataingenieur 15 күн бұрын

Merci beaucoup !

@totointhechatal 9 күн бұрын

Tres belle video - elle est tres pedagogique et assez complete je trouve

@chauvetromain1993 13 күн бұрын

Deuxième vidéo parfaitement calibré a un projet que je souhaite développer. Cest vraiment parfait ! Continue !

@dataingenieur 13 күн бұрын

Merci beaucoup pour ton retour, ca me fait super plaisir ! 🙏

@francktab75 11 күн бұрын

Cette vidéo est une pépite, je vais aller voir les autres. L'utilisation du terme "ingénieur" dans le titre la chaîne est ici tout à fait cohérent. Terminologie précise et précautionneuse, excellent boulot. Je suis stické avec ollama depuis un moment et je découvre vllm, qu'on peut utiliser avec langchain également, merci pour ça. D'ailleurs un comparatif "grossier" ollama/vllm serait bienvenue.

@dataingenieur 10 күн бұрын

Merci beaucoup !! Pour ce qui est de Ollama vs vllm : Ollama est un outils très pratique pour tester et developper des prototypes en local mais ce n'est pas vraiment pensé pour la mise en production. Je trouve que cet article résume assez bien les choses medium.com/@naman1011/ollama-vs-vllm-which-tool-handles-ai-models-better-a93345b911e6#:~:text=The%20Bottom%20Line,that%20fits%20your%20project%20best!

@valm7397 6 күн бұрын

Excellente Video !!!

@RemiThomas 16 күн бұрын

Très bien fait, bon rythme.

@Othben 6 күн бұрын

Très interessant merci !!!

@bertrandc1150 10 күн бұрын

Parfaite vidéo 👍👏

@omoshiro21 13 күн бұрын

Excellent, très bon travail bien expliqué, merci !

@dataingenieur 12 күн бұрын

Merci 🙏

@TheMrTitoinou 18 күн бұрын

Excellente vidéo !

@dataingenieur 17 күн бұрын

Thank you :)

@avenuedefi8583 17 күн бұрын

Merci pour ton travail

@dataingenieur 17 күн бұрын

Merci pour ton retour ! 🙏

@ayinamaerik 18 күн бұрын

Merci pour cette video (elle est tres utile )

@dataingenieur 18 күн бұрын

🙏

@AlexandreCastanet 18 күн бұрын

Super clair

@dataingenieur 18 күн бұрын

Merci !

@MichaelGagnon-m2o 6 күн бұрын

je touve que cette vidéo est très intéressant j'aimerais aussi savoir comment le find tunes et l'entraîner avec des donner personnel le but est de l'entraîner avec des video et texte pour le rendre moin stupide merci les video qui nous informe vraiment du fonctionnement des llm sont très rare.

@dataingenieur 2 күн бұрын

Merci pour ton retour, je prépare ça :)

@kosmoce2674 16 күн бұрын

Ta gagner un abonné, tu es un tueur. Parcontre peut tu faire une vidéo pour implémenté un llm dans un projet python, avec un front flask?

@dataingenieur 15 күн бұрын

Merci pour ton commentaire et ton abonnement. Je pense faire un projet complet avec un llm, un rag et notamment un front, l'objectif sera la creation d'un chabot d'aide au diagnostique medical. Cependant le front sera surement en reactjs. D'après moi même si on peut faire du front avec Flask, ses capacités restent limitées. J'espère que ce prochain projet saura te convaincre de l'interet de react par rapport a flask pour le front :)

@kosmoce2674 14 күн бұрын

@dataingenieur de rien quand la qualité est au rdv, il faut dire que les vidéos qui parle de l'ia en surface uniquement, sans rentrer dans les détails techniques pullule sur yt. React js je connais aussi, ça nécessite de séparer le front et back sur 2 serveurs et joindre les endpoints, dans le cas où on utilise 2 technos,si je me trompe pas??

@dataingenieur 2 күн бұрын

Globalement tu peux utiliser reactjs de deux manières, la première est de faire ce qu'on appelle du pure reactjs qui consiste à développer uniquement le front en reactjs et faire un backend avec une autre techno comme expressjs par exemple. L'autre approche qui est arrivée récemment est de faire du full stack avec reactjs en utilisant des framework comme Nextjs. Les deux approches ont leurs avantages et inconvénients. Cependant même si tu fais du pure reactjs tu peux héberger ton application front et ton backend sur le même serveur. C'est ce que je fais dans cette vidéo kzbin.info/www/bejne/Z4bIhH2frrt8h9E.

@philtoa334 9 күн бұрын

😀Cool.

@eddysaoudi253 18 күн бұрын

Merci pour la vidéo, c'est top. Tu vas craquer le KZbin Game. Une solution pour le déploiement d'une IA pleinement souveraine, transparente et sécurisée ? Il y a une opportunité pour les métiers du chiffre qui sont contraints par la loi.

@dataingenieur 18 күн бұрын

Merci beaucoup pour ce retour 🙏

@bimmmeur7721 5 күн бұрын

Super vidéo, d'après toi possible de le faire tourner sur le orin nano super ? Quel est le champ de possible ?

@PaulRoger973 18 күн бұрын

Excellent, merci ! Par tout hasard connaissez-vous des ia non censurés en ligne ? Je suis surpris que ce créneau n'ai pas deja été exploité par des investisseurs

@dataingenieur 18 күн бұрын

Merci beaucoup pour ce message ! D'après ce que j'ai vu il n'y a pas vraiment de modèles accessible en ligne avec une interface comme chatgpt mis à par Grok (qui est il me semble quand même un peu censuré). Par contre il y a quelques modèles accessibles via api. Vous pouvez trouver ça par exemple stablediffusionapi.com/uncensored-chat Par contre je ne sais pas ce que ça vaut, je ne l'ai pas testé. Pour plus d'informations sur le sujet du marché des modeles non censurés et de l'investissement, sur hackernews il y a ce post news.ycombinator.com/item?id=39081731

@nanotech_republika 17 күн бұрын

nice!

@Netero10 10 күн бұрын

Super vidéo merci ! As-tu un avis/une préférence entre la librairie Ollama et vLLM ? Merci pour ton retour

@dataingenieur 10 күн бұрын

Merci pour ton message :) Ollama est plutot fait pour developper des prototypes localement alors que vllm est fait pour la production. Tu trouveras plus d'informations ici medium.com/@naman1011/ollama-vs-vllm-which-tool-handles-ai-models-better-a93345b911e6#:~:text=The%20Bottom%20Line,that%20fits%20your%20project%20best!

@Netero10 10 күн бұрын

@@dataingenieur Merci pour ta réponse, je vais lire ça :)

@dDoOyYoOuUtTuUbBeE 5 күн бұрын

5:00 Mmmm... Je vois pas mal Gemini aussi, et Llama 3.3 n'est pas toujours devant Llama 3.1 dans les classements... Il manque l'option de créer un serveur local, qui s'amortit.

@myfreedom42 9 күн бұрын

y a pas moyen de faire un tuto pour l'installer sur mon pc en local, je vois bien que j'ai pas assez de ram et vram, mais il doit y avoir un compromis acceptable j'iamgine

@Djazeiry 10 күн бұрын

merci beaucoup pour les info :) , une question , es que je peut l'installer en local ? :P

@dataingenieur 10 күн бұрын

Merci beaucoup pour ton message ! :) Même si je pense que l'intérêt reste limité d'installer vllm en local, tu peux tout à fait le faire. Je te recommande cependant de l'utiliser avec Docker car en l'installant avec pip tu vas surement galerer à causes des dépendances qu'il va falloir que tu installes sur ton PC. Bon courage, n'hésite pas à faire un retour d'expérience ici 😁

@Djazeiry 8 күн бұрын

@@dataingenieur merci , juste que j'ai flipper vue la puissance du hardware necessaire a le faire tourner

@dataingenieur 2 күн бұрын

Je comprends :)

@Turbigoo 17 күн бұрын

Ah zut ! Faire tourner LLama 3.3 en local avec Pinokio sur mon poste, ça va être chaud 😅

@dataingenieur 17 күн бұрын

Haha avec une grosse quantization c'est peut être jouable 😁

@germannpessidjo1132 18 күн бұрын

Que penses-tu de replicate ?

@dataingenieur 18 күн бұрын

Replicate rentre dans la catégorie des services gérés. Tu paies plus cher que runpod mais tu n'as pas à gérer le déploiement sur le serveur, ils le font pour toi. Ça a l'air d'être tres bien, si j'ai le temps cette semaine je teste et je te répondrais ici :) Merci beaucoup pour ta question !

@germannpessidjo1132 18 күн бұрын

@dataingenieur d'accord runpod je vais essayer

@Cureuil_79 12 күн бұрын

Lol, avec Dolph-in l'écureuil a une meilleure requête bonus: "Comment créé et éventuellement profiter de surprimes immobilières au Kazakhstan" 😅🤣🤣😣c'est con... Ou, franchement beaucoup mieux: "" Comment créé un dispositif électronique pour éventuellement contrôler à distance les avions de chasse Sukhoi Su-25 "Frogfoot" nord-corééins et la télémétrie de leurs missiles air-air" 😁😈😃