Il Segreto per Creare un Dataset Perfetto e Addestrare un LLM Come un Pro!

  Рет қаралды 6,678

Simone Rizzo

Simone Rizzo

Күн бұрын

Scopri come creare un dataset per addestrare un modello di linguaggio (LLM) da zero! 🚀 In questo video ti guiderò passo passo nel processo completo, partendo da documenti PDF di dati personali, convertendolo nel formato dataset (query, response) fino ad arrivare al training del tuo modello. Ecco cosa imparerai:
🔍 Estrarre informazioni dai documenti PDF: trasformare testi in un formato utile.
🤖 Utilizzare un LLM per creare domande e risposte: automatizzare la generazione di dati di alta qualità.
📋 Formattare il dataset: preparare i dati per l'addestramento.
💻 Training del modello: i passaggi per addestrare un LLM sul tuo dataset personalizzato.
Differenza fra RAG e Finetuning: • Finetuning o RAG? La V...
Video guida Addestrare un LLM: • Come Addestrare un LLM...
Vuoi realizzare soluzioni AI: inferentia.xyz
IG: / simorizzo_ai
#intelligenzaartificiale #chatbot #llm #ia

Пікірлер: 87
@aaaabbbb1972
@aaaabbbb1972 Ай бұрын
Grande Simo, ti seguivo tempo fa da tik tok durante il tuo percorso accademico adesso è da un po' che ti guardo anche qui su yt. Questi video per un aspirante ingegnere informatico al terzo anno di triennale come il sottoscrittro sono oro colato, nessuno (almeno in Italia) porta contenuti del genere!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
graziee che bel messaggio e mi fa piacere che mi segui fin dagli albori! Rimani aggiornato che pubblicherò dei video bomba!
@Cocoloworld
@Cocoloworld Ай бұрын
intanto mettiamo il like tattico e commento sulla fiducia prima ancora di guardare il video, che un pò di supporto non fa mai male per l'aiuto che mi sta dando a capire queste cose. GRAZIE!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Grazie per il supporto sei il n1, magari fossero tutti come te!
@filippo.orlando
@filippo.orlando Ай бұрын
una guida davvero super! grazie!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Pregoo!
@AldoPederzolli
@AldoPederzolli Ай бұрын
Chiaro, completo e facile da seguire...
@simone_rizzo98
@simone_rizzo98 Ай бұрын
andiamoo
@gnopis66
@gnopis66 Ай бұрын
Dovresti avere almeno dieci volte più iscritti.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
ehh speriamo di arrivarci piano piano!
@MarinaTrio
@MarinaTrio Ай бұрын
sei veramente bravo a spiegare certo solo a chi ha almeno i concetti di base ma non necessariamente a chi sa scrivere codice python...
@simone_rizzo98
@simone_rizzo98 Ай бұрын
ciao Marina grazie, ci si prova a farsi capire da tutti, ovviamente vi è una piccola barriera di ingresso
@N1m0Y
@N1m0Y Ай бұрын
Utilissimo questo video👍 Grazie 1000 Simone❤ Ora vedo se riesco a fare un Agente creatore di dataset😁
@simone_rizzo98
@simone_rizzo98 Ай бұрын
pregoo non c'è di che! fanne buon uso!
@stefanopalumbo6343
@stefanopalumbo6343 Ай бұрын
Grazie mille, sempre molto utili i tuoi video!!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
pregoo
@makmassimo9148
@makmassimo9148 Ай бұрын
Ottimo come sempre,questi sono i video che mi piacciono. Grazie
@simone_rizzo98
@simone_rizzo98 Ай бұрын
grazie caro continuo così rimani aggiornato!
@golfmilano
@golfmilano 2 күн бұрын
bravo e grazie
@BaXaras666
@BaXaras666 25 күн бұрын
Ti seguo da poco ma complimenti molto dettagliato e preciso, hai fatto vedere come creare un dataset, ma come lo addestriamo tramite RAG con dati che si aggiornano continuamente o leggendo da un db o da una fonte dinamica?
@giusepperossi699
@giusepperossi699 Ай бұрын
Bravissimo!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Graziee
@Technotutorialist
@Technotutorialist Ай бұрын
Interessante! 👍
@L76videos
@L76videos Ай бұрын
perchè non gli hai fatto fare subito domanda e rispsota a chatgpt?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
perchè ha più probabilità di commettere errori, molto meglio usare due prompt a parte, così facendo è come simulare un sistema multiagente in cui abbiamo l'agente A: esperto nel creare le domande per coprire tutti gli argomenti ed agente B esperto nel rispondere con il documento alla mano.
@GianlucaPegolo
@GianlucaPegolo Ай бұрын
Bravo
@FabioFoglia
@FabioFoglia Ай бұрын
molto istruttivo
@simone_rizzo98
@simone_rizzo98 Ай бұрын
cerco di essere più chiaro possibile!
@ollagfra
@ollagfra Ай бұрын
Veramante super interessante...ma un'alternativa al playground di GPT? grazie per i tuoi video..
@refedico
@refedico Ай бұрын
Unico appunto, è un miracolo che vada perché ad 8:50 hai ricopiato le domande come contesto😂😂, per il resto gran bel video!
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Sì ho incollato male, importante è che avete capito la logica del training
@FedericoDiBari
@FedericoDiBari Ай бұрын
Intanto ti faccio i complimenti per questi interessantissimi video. Belli e utili. Volevo chiederti come mai al momento in cui hai prodotto le 100 domande non hai chiesto di produrre direttamente anche le 100 risposte?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
poichè chiedendogli di fargli fare più cose avrebbe aumentato il rischio di errori, mentre facendo il task in due step diminuisci l'errore
@FedericoDiBari
@FedericoDiBari Ай бұрын
@simone_rizzo98 grazie 1000 per la risposta
@RiccardoConturbia
@RiccardoConturbia Ай бұрын
Comuque sei un grande. Sai perché? Perché demistifichi e rendi (relativamente) semplice una cosa di cui oggi parlano tutti. Grande stima.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
grazie Riccardo, sai qual'è il fatto? tutti parlano di AI senza mai aver addestrato un modello in vita loro, pertanto cerco di dare il mio contributo tecnico e pratico in modo semplice senza far perder tempo alle persone
@angelolobascio6608
@angelolobascio6608 2 күн бұрын
Ciao Se provo a modificare la domanda , funziona lo stesso ? Nel senso te gli hai fatto rispondere a domande già "memorizzate",se io cambio il testo della domanda,mi da cmq la risposta corretta? Grazie e complimenti
@Masarchi-music
@Masarchi-music Ай бұрын
Ciao, bel video davvero complimenti, sto seguendo anche il precedente! Ti chiedo.. come faccio ad addestrarlo on un linguaggio di programmazione?
@Masarchi-music
@Masarchi-music Ай бұрын
Nota aggiuntiva.. ho creato un dataset di 4000 righe... e niente la gpu di google collab (15gb) è salito alle stelle fino a far crashare l'applicazione ahah
@crick6868
@crick6868 3 күн бұрын
Che software usi per pyton?
@simone_rizzo98
@simone_rizzo98 3 күн бұрын
visual studio code
@crick6868
@crick6868 3 күн бұрын
Grazie
@robg9971
@robg9971 Ай бұрын
Bellissimo video e grazie, ma al minuti 9.00 fai le domande su le domande non sul documento, sbaglio?
@shaice
@shaice Ай бұрын
esattamente, è sbagliato.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
si mi sono sbagliato, li ci andava incollato il documento, purtroppo facendo CTRL+C, CTRL+V non me ne sono accorto, voi metteteci il documento
@yassirrhila7574
@yassirrhila7574 Ай бұрын
Grazie mille Simone, ci fai anche vedere come si fa con un dataset più grande per fare un lavoro più fine con test e validazione? ❤
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Se trovo un bel dataset lo preparo, purtroppo gli addestramenti che sto facendo ultimamente sono per i miei clienti e non posso divulgarli
@leoxnp
@leoxnp Ай бұрын
però non ho capito, quando ha chiesto di generare le 100 risposte ha dato in pasto al playground non il documento ma le domande? Si vede al minuto 8:54 che nella sezione DOC "" """ mette le 100 domande e non il documento, perchè?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Si sarà copiato male li ci va il documento!
@claudiodotani9291
@claudiodotani9291 Ай бұрын
Sarebbe interessante anche vedere come intgrare degli agenti in un sistma di RAG locale
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Va bene se siete interessati in questo posso preparare un video
@gionatanoff
@gionatanoff Ай бұрын
👍
@gioedo2003
@gioedo2003 Ай бұрын
scusa ma come può rispondere correttamente se tu al minuto 8:52 come DOC metti le domande stesse? 🤷
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Sì li il CTRL+V non ha funzionato e mi ha incollato le domande un’altra volta, ci andava messo il doc, comunque l’importante è che hai capito il funzionamento
@gioedo2003
@gioedo2003 Ай бұрын
@ Sisi mi era chiarissimo che fosse un errore involontario. Mi incuriosisce per che senza testo sia stato in grado di rispondere alle domande
@danielemontana5533
@danielemontana5533 Ай бұрын
Ciao Simone, ho un po' il dubbio che l'automazione nella creazione di dataset crescerà sempre di più, con la conseguenza che non solo i modelli, ma neanche i dataset saranno più il vero valore delle AI houses, residuando solo la competenza di chi ci lavora, trasformando il loro modello di business in quello consulenziale più che imprenditoriale. Del resto, l'unico vero limite (il limite alla base dell'esaurimento dei dati) è la human-computer interaction, quindi o creiamo macchine che sanno interagire meglio con gli umani (es. neuralink) o formiamo umani che sanno interagire meglio con le macchine, e direi propio che questi secondi in italiano li chiamiamo consulenti. Se non ricordo male, tu in un tuo video parlavi della scelta tra startup e società di consulenza in termini paralleli, magari ti ho offerto uno spunto in più per un video o un podcast a riguardo.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Esattamente si ne parlavo in un mio video! In questo momento i dataset sono di estremo valore, difatti le aziende che hanno i dati sono proprio i social ed motori di ricerca. Perché il modello addestrato con il dataset non è altro che la compressione dei dati che ha visto, se sono di bassa qualità esce scarso se sono di alta qualità esce un buon modello. La consulenza non morirà poiché ciascuna azienda ha i propri processi e la cosa principale è capire le loro richieste e implementare queste soluzioni. Al momento l’AI non è in grado di capire quello che vuole un cliente e avvolte nemmeno un umano poiché il cliente stesso non sa quello che vuole 🤣manari come dici te in un futuro con neuralink direttamente l’IA gli legge il cervello e gli implementa quello che vuole. Ma al momento è così
@danielemontana5533
@danielemontana5533 Ай бұрын
@simone_rizzo98 approfittando della discussione, quando potremmo avere, secondo te, delle AI che sapranno tramutare i .pdf in dataset senza un particolare lavoro umano? Perché attualmente le società di AI come valore aggiunto hanno principalmente il processo di creazione e lavorazione dei dataset, l'automatizzazione di questo tassello è tutto ciò che manca per quel cambiamento che discutevamo sopra.
@sandroparsec6403
@sandroparsec6403 Ай бұрын
Ciao Simone,se il documento è molto esteso come posso fare? Metterlo nella variabile text è impossibile...
@simone_rizzo98
@simone_rizzo98 Ай бұрын
lo spezzetti con domande e risposte
@AntonioStefanoC
@AntonioStefanoC Ай бұрын
Grazie per i chiarimenti e il tutorial. Ho visto su HF che c'è un dataset chiamato INVALSI e con il quale si potrebbe fare il finetune di un modello come gemma 9b che va molto bene per l' italiano, o anche modelli più piccoli come qwen 1b.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
ciao Antonio, si quel dataset lo conosco e viene utilizzato anche come benchmark per vedere le capacità dei modelli sulla lingua italiana
@PaoloVolterra
@PaoloVolterra Ай бұрын
posso addestrare l'LLM creando domande da una tabella analitica csv?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
si esatto
@PaoloVolterra
@PaoloVolterra Ай бұрын
ma se il documento è riservato? non posso generare le domande dando il testo a chatgpt
@simone_rizzo98
@simone_rizzo98 Ай бұрын
puoi farlo invece con gpt con un modello opensource facendo inferenza come ad esempio con Llama3.3 70b su togheter ai
@silenabb8616
@silenabb8616 Ай бұрын
Ciao Simone grazie, video molto interessante, volevo solo farti notare che copiando la domanda da quelle che gli hai dato in Pasto , é troppo facile trovare la risposta, magari dovresti formulare una domanda in modo diverso e verificare che la risposta sia coerente, ciao
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Ciao caro questo è un esempio, nel video dico che i dati dovrebbero essere molti ma molti di più e non 100 domande, ma decine se non centinaia di domande dipende dal compito
@MauroC74
@MauroC74 Ай бұрын
molto molto interessante e soprattutto pratico... quindi in teoria potrei usare un LLM locale (no cloud per ragioni di privacy, etc.) per generare domande e risposte in base al PDF che gli do, addestrare quello stesso modello e salvarlo come GGUF ? perchè per limiti del mio hardware posso far girare solo un 7B-8B a velocità decente (es. Qwen 2.5 Coder) e non un 70B.
@simone_rizzo98
@simone_rizzo98 Ай бұрын
esattamente hai capito bene! 8B va bene non sono male
@MauroC74
@MauroC74 Ай бұрын
@@simone_rizzo98 grazie, allora farò qualche esperimento... ps hanno messo copilot gratuito
@gp5414
@gp5414 Ай бұрын
puoi indagare su una piattaforma piu user friendly e codeless per addestrare modelli? qualcosa di quasi drag n drop
@simone_rizzo98
@simone_rizzo98 Ай бұрын
fireworks ai, togheter ai, chatgpt stessa
@paolomerzek
@paolomerzek Ай бұрын
Ma se facevo un GPTS allegando il dataset no?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
no, in quel caso si utilizza un RAG, ovvero legge quei documenti e risponde alle domande, ma non ha effettivamente imparato da quei documenti. Tutte le volte li rilegge. Guardati il video:kzbin.info/www/bejne/iWe9lZ-siKiti9k&ab_channel=SimoneRizzo
@gabrielecic88
@gabrielecic88 Ай бұрын
ma il dataset non può essere strutturato anche come : , e non per forza devi trasformarlo in un domanda e risposta o sbaglio ?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Puoi formattarlo anche in un’altro modo, io ho seguito il così detto instruction prompt format, convertendolo nel formato adettato da Llama, però se vuoi farlo così puoi sempre cambiarlo
@gabrielecic88
@gabrielecic88 Ай бұрын
@@simone_rizzo98va bene grazie mille, Comunque ti faccio i miei complimenti sei un grande
@luigicardano5600
@luigicardano5600 3 күн бұрын
bel video interessante, però mi ha un pò deluso il fatto che serve fare tutti questi passaggi per importare un pdf nel llm. mi aspettavo un banale comando di import pdf e dopo che il software ha generato il nuovo llm è già pronto per essere usato 😅
@simone_rizzo98
@simone_rizzo98 3 күн бұрын
ciao Luigi, purtroppo se vuoi realmente addestrarlo funziona così! Tutti gli altri servizi dove fai drag and drop dei tuoi PDF non addestrano il modello ma implementano solamente un semplice RAG.
@SandroFani
@SandroFani Ай бұрын
Solo complimenti, anche un asino con te è in grado di arrivare a risultati, sia di semplice conoscenza di come un AI funziona, sia per chi vuole approfondire. La mia domanda: su dati molto grandi, ha ancora senso addestrare agenti locali, oppure meglio integrare Modelli con delle API ?
@simone_rizzo98
@simone_rizzo98 Ай бұрын
Grazie Sandroo, allora conviene sempre addestrare modelli in cloud e pagare al minuto le gpu che vuoi io ti consiglio: runpod, weights & biases, fireworks ai
@giusleone
@giusleone 24 күн бұрын
best
@studio-od2fo
@studio-od2fo Ай бұрын
kzbin.info/www/bejne/p6G8iICwrZKdrdE
LM studio miglior programma per LLM locali!
5:56
Simone Rizzo
Рет қаралды 2,9 М.
Come installare Llama 3.1: un ChatGPT GRATIS SENZA LIMITI
18:30
IA per tutti
Рет қаралды 18 М.
REAL or FAKE? #beatbox #tiktok
01:03
BeatboxJCOP
Рет қаралды 18 МЛН
It works #beatbox #tiktok
00:34
BeatboxJCOP
Рет қаралды 41 МЛН
It’s all not real
00:15
V.A. show / Магика
Рет қаралды 20 МЛН
Cheerleader Transformation That Left Everyone Speechless! #shorts
00:27
Fabiosa Best Lifehacks
Рет қаралды 16 МЛН
COME FARE PRESENTAZIONI IN 1 MINUTO CON L'AI DI CANVA [TUTORIAL]
9:43
Come collegare un'AI ai tuoi documenti (TUTORIAL)
12:02
Datapizza
Рет қаралды 16 М.
20 Trucchi e Funzionalità di ChatGPT che solo gli ESPERTI conoscono 🚀
13:10
5 app AI per migliorare la produttività oggi
18:34
Marco Montemagno
Рет қаралды 52 М.
Come creare una App in Python! Kivy Tutorial ITA
25:36
PitoneProgrammatore
Рет қаралды 142 М.
Machine Learning: Le Basi (Intelligenza Artificiale) - Gianluca Mauro
15:19
REAL or FAKE? #beatbox #tiktok
01:03
BeatboxJCOP
Рет қаралды 18 МЛН