Il Segreto per Creare un Dataset Perfetto e Addestrare un LLM Come un Pro!

Рет қаралды 6,678

Күн бұрын

Scopri come creare un dataset per addestrare un modello di linguaggio (LLM) da zero! 🚀 In questo video ti guiderò passo passo nel processo completo, partendo da documenti PDF di dati personali, convertendolo nel formato dataset (query, response) fino ad arrivare al training del tuo modello. Ecco cosa imparerai:
🔍 Estrarre informazioni dai documenti PDF: trasformare testi in un formato utile.
🤖 Utilizzare un LLM per creare domande e risposte: automatizzare la generazione di dati di alta qualità.
📋 Formattare il dataset: preparare i dati per l'addestramento.
💻 Training del modello: i passaggi per addestrare un LLM sul tuo dataset personalizzato.
Differenza fra RAG e Finetuning: • Finetuning o RAG? La V...
Video guida Addestrare un LLM: • Come Addestrare un LLM...
Vuoi realizzare soluzioni AI: inferentia.xyz
IG: / simorizzo_ai
#intelligenzaartificiale #chatbot #llm #ia

Пікірлер: 87

@aaaabbbb1972 Ай бұрын

Grande Simo, ti seguivo tempo fa da tik tok durante il tuo percorso accademico adesso è da un po' che ti guardo anche qui su yt. Questi video per un aspirante ingegnere informatico al terzo anno di triennale come il sottoscrittro sono oro colato, nessuno (almeno in Italia) porta contenuti del genere!

@simone_rizzo98 Ай бұрын

graziee che bel messaggio e mi fa piacere che mi segui fin dagli albori! Rimani aggiornato che pubblicherò dei video bomba!

@Cocoloworld Ай бұрын

intanto mettiamo il like tattico e commento sulla fiducia prima ancora di guardare il video, che un pò di supporto non fa mai male per l'aiuto che mi sta dando a capire queste cose. GRAZIE!

@simone_rizzo98 Ай бұрын

Grazie per il supporto sei il n1, magari fossero tutti come te!

@filippo.orlando Ай бұрын

una guida davvero super! grazie!

@simone_rizzo98 Ай бұрын

Pregoo!

@AldoPederzolli Ай бұрын

Chiaro, completo e facile da seguire...

@simone_rizzo98 Ай бұрын

andiamoo

@gnopis66 Ай бұрын

Dovresti avere almeno dieci volte più iscritti.

@simone_rizzo98 Ай бұрын

ehh speriamo di arrivarci piano piano!

@MarinaTrio Ай бұрын

sei veramente bravo a spiegare certo solo a chi ha almeno i concetti di base ma non necessariamente a chi sa scrivere codice python...

@simone_rizzo98 Ай бұрын

ciao Marina grazie, ci si prova a farsi capire da tutti, ovviamente vi è una piccola barriera di ingresso

@N1m0Y Ай бұрын

Utilissimo questo video👍 Grazie 1000 Simone❤ Ora vedo se riesco a fare un Agente creatore di dataset😁

@simone_rizzo98 Ай бұрын

pregoo non c'è di che! fanne buon uso!

@stefanopalumbo6343 Ай бұрын

Grazie mille, sempre molto utili i tuoi video!!

@simone_rizzo98 Ай бұрын

pregoo

@makmassimo9148 Ай бұрын

Ottimo come sempre,questi sono i video che mi piacciono. Grazie

@simone_rizzo98 Ай бұрын

grazie caro continuo così rimani aggiornato!

@golfmilano 2 күн бұрын

bravo e grazie

@BaXaras666 25 күн бұрын

Ti seguo da poco ma complimenti molto dettagliato e preciso, hai fatto vedere come creare un dataset, ma come lo addestriamo tramite RAG con dati che si aggiornano continuamente o leggendo da un db o da una fonte dinamica?

@giusepperossi699 Ай бұрын

Bravissimo!

@simone_rizzo98 Ай бұрын

Graziee

@Technotutorialist Ай бұрын

Interessante! 👍

@L76videos Ай бұрын

perchè non gli hai fatto fare subito domanda e rispsota a chatgpt?

@simone_rizzo98 Ай бұрын

perchè ha più probabilità di commettere errori, molto meglio usare due prompt a parte, così facendo è come simulare un sistema multiagente in cui abbiamo l'agente A: esperto nel creare le domande per coprire tutti gli argomenti ed agente B esperto nel rispondere con il documento alla mano.

@GianlucaPegolo Ай бұрын

Bravo

@FabioFoglia Ай бұрын

molto istruttivo

@simone_rizzo98 Ай бұрын

cerco di essere più chiaro possibile!

@ollagfra Ай бұрын

Veramante super interessante...ma un'alternativa al playground di GPT? grazie per i tuoi video..

@refedico Ай бұрын

Unico appunto, è un miracolo che vada perché ad 8:50 hai ricopiato le domande come contesto😂😂, per il resto gran bel video!

@simone_rizzo98 Ай бұрын

Sì ho incollato male, importante è che avete capito la logica del training

@FedericoDiBari Ай бұрын

Intanto ti faccio i complimenti per questi interessantissimi video. Belli e utili. Volevo chiederti come mai al momento in cui hai prodotto le 100 domande non hai chiesto di produrre direttamente anche le 100 risposte?

@simone_rizzo98 Ай бұрын

poichè chiedendogli di fargli fare più cose avrebbe aumentato il rischio di errori, mentre facendo il task in due step diminuisci l'errore

@FedericoDiBari Ай бұрын

@simone_rizzo98 grazie 1000 per la risposta

@RiccardoConturbia Ай бұрын

Comuque sei un grande. Sai perché? Perché demistifichi e rendi (relativamente) semplice una cosa di cui oggi parlano tutti. Grande stima.

@simone_rizzo98 Ай бұрын

grazie Riccardo, sai qual'è il fatto? tutti parlano di AI senza mai aver addestrato un modello in vita loro, pertanto cerco di dare il mio contributo tecnico e pratico in modo semplice senza far perder tempo alle persone

@angelolobascio6608 2 күн бұрын

Ciao Se provo a modificare la domanda , funziona lo stesso ? Nel senso te gli hai fatto rispondere a domande già "memorizzate",se io cambio il testo della domanda,mi da cmq la risposta corretta? Grazie e complimenti

@Masarchi-music Ай бұрын

Ciao, bel video davvero complimenti, sto seguendo anche il precedente! Ti chiedo.. come faccio ad addestrarlo on un linguaggio di programmazione?

@Masarchi-music Ай бұрын

Nota aggiuntiva.. ho creato un dataset di 4000 righe... e niente la gpu di google collab (15gb) è salito alle stelle fino a far crashare l'applicazione ahah

@crick6868 3 күн бұрын

Che software usi per pyton?

@simone_rizzo98 3 күн бұрын

visual studio code

@crick6868 3 күн бұрын

Grazie

@robg9971 Ай бұрын

Bellissimo video e grazie, ma al minuti 9.00 fai le domande su le domande non sul documento, sbaglio?

@shaice Ай бұрын

esattamente, è sbagliato.

@simone_rizzo98 Ай бұрын

si mi sono sbagliato, li ci andava incollato il documento, purtroppo facendo CTRL+C, CTRL+V non me ne sono accorto, voi metteteci il documento

@yassirrhila7574 Ай бұрын

Grazie mille Simone, ci fai anche vedere come si fa con un dataset più grande per fare un lavoro più fine con test e validazione? ❤

@simone_rizzo98 Ай бұрын

Se trovo un bel dataset lo preparo, purtroppo gli addestramenti che sto facendo ultimamente sono per i miei clienti e non posso divulgarli

@leoxnp Ай бұрын

però non ho capito, quando ha chiesto di generare le 100 risposte ha dato in pasto al playground non il documento ma le domande? Si vede al minuto 8:54 che nella sezione DOC "" """ mette le 100 domande e non il documento, perchè?

@simone_rizzo98 Ай бұрын

Si sarà copiato male li ci va il documento!

@claudiodotani9291 Ай бұрын

Sarebbe interessante anche vedere come intgrare degli agenti in un sistma di RAG locale

@simone_rizzo98 Ай бұрын

Va bene se siete interessati in questo posso preparare un video

@gionatanoff Ай бұрын

👍

@gioedo2003 Ай бұрын

scusa ma come può rispondere correttamente se tu al minuto 8:52 come DOC metti le domande stesse? 🤷

@simone_rizzo98 Ай бұрын

Sì li il CTRL+V non ha funzionato e mi ha incollato le domande un’altra volta, ci andava messo il doc, comunque l’importante è che hai capito il funzionamento

@gioedo2003 Ай бұрын

@ Sisi mi era chiarissimo che fosse un errore involontario. Mi incuriosisce per che senza testo sia stato in grado di rispondere alle domande

@danielemontana5533 Ай бұрын

Ciao Simone, ho un po' il dubbio che l'automazione nella creazione di dataset crescerà sempre di più, con la conseguenza che non solo i modelli, ma neanche i dataset saranno più il vero valore delle AI houses, residuando solo la competenza di chi ci lavora, trasformando il loro modello di business in quello consulenziale più che imprenditoriale. Del resto, l'unico vero limite (il limite alla base dell'esaurimento dei dati) è la human-computer interaction, quindi o creiamo macchine che sanno interagire meglio con gli umani (es. neuralink) o formiamo umani che sanno interagire meglio con le macchine, e direi propio che questi secondi in italiano li chiamiamo consulenti. Se non ricordo male, tu in un tuo video parlavi della scelta tra startup e società di consulenza in termini paralleli, magari ti ho offerto uno spunto in più per un video o un podcast a riguardo.

@simone_rizzo98 Ай бұрын

Esattamente si ne parlavo in un mio video! In questo momento i dataset sono di estremo valore, difatti le aziende che hanno i dati sono proprio i social ed motori di ricerca. Perché il modello addestrato con il dataset non è altro che la compressione dei dati che ha visto, se sono di bassa qualità esce scarso se sono di alta qualità esce un buon modello. La consulenza non morirà poiché ciascuna azienda ha i propri processi e la cosa principale è capire le loro richieste e implementare queste soluzioni. Al momento l’AI non è in grado di capire quello che vuole un cliente e avvolte nemmeno un umano poiché il cliente stesso non sa quello che vuole 🤣manari come dici te in un futuro con neuralink direttamente l’IA gli legge il cervello e gli implementa quello che vuole. Ma al momento è così

@danielemontana5533 Ай бұрын

@simone_rizzo98 approfittando della discussione, quando potremmo avere, secondo te, delle AI che sapranno tramutare i .pdf in dataset senza un particolare lavoro umano? Perché attualmente le società di AI come valore aggiunto hanno principalmente il processo di creazione e lavorazione dei dataset, l'automatizzazione di questo tassello è tutto ciò che manca per quel cambiamento che discutevamo sopra.

@sandroparsec6403 Ай бұрын

Ciao Simone,se il documento è molto esteso come posso fare? Metterlo nella variabile text è impossibile...

@simone_rizzo98 Ай бұрын

lo spezzetti con domande e risposte

@AntonioStefanoC Ай бұрын

Grazie per i chiarimenti e il tutorial. Ho visto su HF che c'è un dataset chiamato INVALSI e con il quale si potrebbe fare il finetune di un modello come gemma 9b che va molto bene per l' italiano, o anche modelli più piccoli come qwen 1b.

@simone_rizzo98 Ай бұрын

ciao Antonio, si quel dataset lo conosco e viene utilizzato anche come benchmark per vedere le capacità dei modelli sulla lingua italiana

@PaoloVolterra Ай бұрын

posso addestrare l'LLM creando domande da una tabella analitica csv?

@simone_rizzo98 Ай бұрын

si esatto

@PaoloVolterra Ай бұрын

ma se il documento è riservato? non posso generare le domande dando il testo a chatgpt

@simone_rizzo98 Ай бұрын

puoi farlo invece con gpt con un modello opensource facendo inferenza come ad esempio con Llama3.3 70b su togheter ai

@silenabb8616 Ай бұрын

Ciao Simone grazie, video molto interessante, volevo solo farti notare che copiando la domanda da quelle che gli hai dato in Pasto , é troppo facile trovare la risposta, magari dovresti formulare una domanda in modo diverso e verificare che la risposta sia coerente, ciao

@simone_rizzo98 Ай бұрын

Ciao caro questo è un esempio, nel video dico che i dati dovrebbero essere molti ma molti di più e non 100 domande, ma decine se non centinaia di domande dipende dal compito

@MauroC74 Ай бұрын

molto molto interessante e soprattutto pratico... quindi in teoria potrei usare un LLM locale (no cloud per ragioni di privacy, etc.) per generare domande e risposte in base al PDF che gli do, addestrare quello stesso modello e salvarlo come GGUF ? perchè per limiti del mio hardware posso far girare solo un 7B-8B a velocità decente (es. Qwen 2.5 Coder) e non un 70B.

@simone_rizzo98 Ай бұрын

esattamente hai capito bene! 8B va bene non sono male

@MauroC74 Ай бұрын

@@simone_rizzo98 grazie, allora farò qualche esperimento... ps hanno messo copilot gratuito

@gp5414 Ай бұрын

puoi indagare su una piattaforma piu user friendly e codeless per addestrare modelli? qualcosa di quasi drag n drop

@simone_rizzo98 Ай бұрын

fireworks ai, togheter ai, chatgpt stessa

@paolomerzek Ай бұрын

Ma se facevo un GPTS allegando il dataset no?

@simone_rizzo98 Ай бұрын

no, in quel caso si utilizza un RAG, ovvero legge quei documenti e risponde alle domande, ma non ha effettivamente imparato da quei documenti. Tutte le volte li rilegge. Guardati il video:kzbin.info/www/bejne/iWe9lZ-siKiti9k&ab_channel=SimoneRizzo

@gabrielecic88 Ай бұрын

ma il dataset non può essere strutturato anche come : , e non per forza devi trasformarlo in un domanda e risposta o sbaglio ?

@simone_rizzo98 Ай бұрын

Puoi formattarlo anche in un’altro modo, io ho seguito il così detto instruction prompt format, convertendolo nel formato adettato da Llama, però se vuoi farlo così puoi sempre cambiarlo

@gabrielecic88 Ай бұрын

@@simone_rizzo98va bene grazie mille, Comunque ti faccio i miei complimenti sei un grande

@luigicardano5600 3 күн бұрын

bel video interessante, però mi ha un pò deluso il fatto che serve fare tutti questi passaggi per importare un pdf nel llm. mi aspettavo un banale comando di import pdf e dopo che il software ha generato il nuovo llm è già pronto per essere usato 😅

@simone_rizzo98 3 күн бұрын

ciao Luigi, purtroppo se vuoi realmente addestrarlo funziona così! Tutti gli altri servizi dove fai drag and drop dei tuoi PDF non addestrano il modello ma implementano solamente un semplice RAG.

@SandroFani Ай бұрын

Solo complimenti, anche un asino con te è in grado di arrivare a risultati, sia di semplice conoscenza di come un AI funziona, sia per chi vuole approfondire. La mia domanda: su dati molto grandi, ha ancora senso addestrare agenti locali, oppure meglio integrare Modelli con delle API ?

@simone_rizzo98 Ай бұрын

Grazie Sandroo, allora conviene sempre addestrare modelli in cloud e pagare al minuto le gpu che vuoi io ti consiglio: runpod, weights & biases, fireworks ai