S1: they reproduced o1 mini with 6$ of GPU cost! Let's study it and reproduce a small part.

  Рет қаралды 2,459

Salvatore Sanfilippo

Salvatore Sanfilippo

Күн бұрын

Пікірлер: 44
@mrwibbles20
@mrwibbles20 2 сағат бұрын
There are a lot of "educational" videos on KZbin. Most are by content creators of some form or other and little is to be gained. What I appreciate about you is that you have a wealth of experience and I know I am going to learn something about something I won't have to invest time in myself. In this case having heard of this on X it was entirely unclear to me if it was junk or valuable. Your video is the only thing I have found that shows me it was the latter, why and actually shows me with code and execution. Thanks!
@TheGiulianov
@TheGiulianov 4 сағат бұрын
Penso che sia uno dei video più interessanti che abbia visto nell'ultimo anno.
@abassign
@abassign 9 сағат бұрын
Veramente un gran bel video, che dimostra che in fondo R1 non è uno scherzo, ma la strada da percorre in questo periodo storico. Come già scritto altrove: il re è nudo
@vtrsp289
@vtrsp289 9 сағат бұрын
Tu ci stimoli 🤯 Grazie per la condivisione!
@andrea.dilisio
@andrea.dilisio 10 сағат бұрын
Quella del crystal ball rischia di essere una metafora miliare in ambito LLM 😂
@enkk
@enkk 10 сағат бұрын
Paper e descrizione (tua) sublimi. Domanda: l'esperimentino che hai fatto tu sfrutta lama 3.2 (marcissimo ma non troppo) ma il supervised fine tuning su qualche CoT l'hai fatto comunque no? Hai usato il dataset dei 1k esempi del paper? Chiedo solo per completezza. Al di la delle performance sui benchmark matematici, è da sottolineare la capacità del modello di adattarsi con pochissimi esempi di SFT a questo nuovo modo di 'comportarsi' evocando semplicemente il tag think. Mi chiedo se si possa applicare la stessa tecnica per evocare altri modi di comportarsi e poi costringere il modello a stare in quella modalità ritardando continuamente il tag di chiusura. Potrebbe essere una strategia anche per implementare safety guards secondo te? Immagina il tag " " che costringe il modello a rivedere la sua risposta rimuovendo eventuali contenuti harmful o tossici...
@LuigiConforti-l1o
@LuigiConforti-l1o 9 сағат бұрын
Ho una rete neurale nella testa che mi ha sintetizzato la voce di Enk mentre leggevo questo commento
@antirez
@antirez 9 сағат бұрын
La cosa abbastanza sorprendente è che non ho fatto alcun SFT su llama 3.2 3B. Il modello è piccolo ma ormai sono così bravi nell'instruction following, che interpreta il prompt correttamente e apre e chiude i tag: anni luce avanti i modelli di poco tempo fa. Credo che funzionerebbe anche per altre cose, anche una sezione potrebbe funzionare, per diminuire le allucinazioni.
@LuigiConforti-l1o
@LuigiConforti-l1o 9 сағат бұрын
@@antirez Ma questi tag sono solo un prompt diveso che diamo alla rete? Cioè anziché scrivere "immagina di essere un fact checker etc" scrivi "fai fact-checking usando i tag"? Voglio dire niente di innovativo al momento vero?
@francescomangano1996
@francescomangano1996 6 сағат бұрын
Fate una chiacchiera insieme, vi prego
@antonionanni5893
@antonionanni5893 12 сағат бұрын
Ciao Salvatore. Questo e' un team universitario. Candes e' un faculty di statistica a Stanford molto famoso. Gli altri non li conosco, ma sono tutti in ambito accademico americano
@antirez
@antirez 12 сағат бұрын
Grazie. Sono stati bravi.
@antonionanni5893
@antonionanni5893 12 сағат бұрын
@@antirez Mi permetto di scriverti qualcosa non strettamente inerente al contenuto del video. Io lavoro come AI engineer, ma sono molto spostato nell'ambito di creazione di applicazioni, mentre tu sei molto piu' vicino al codice della rete neurale sottostante -- che io conosco quasi solo nella teoria. Sarebbe interessante se potessi fare dei video sulla technology stack che usi per questo tipo di lavoro!
55 минут бұрын
Sono giovanissimi ricercatori di Stanford con h-index altissimi. Purtroppo in Italia ci si è focalizzati principalmente sulla pubblicazione di modelli specifici creati concentrandosi quasi esclusivamente sul creare i dataset di training senza guardare il codice delle reti, sul loro funzionamento, sul provare a modificarle. Questo accade per come funziona il meccanismo dei concorsi dove contano il numero di pubblicazioni piuttosto che la qualità del contenuto. Quindi se un PhD student vuole fare carriera, in Italia deve puntare a massimizzare il numero di pubblicazioni. Spero che con la pubblicazione di Deepseek-R1 prima ed ora di S1 cominci a cambiare qualcosa...per il bene della comunità europea.
@magnodavide
@magnodavide 5 сағат бұрын
Praticamente il tuo modello col “wait” si comporta come me quando mia moglie mi fa una domanda e non capisco se sto rispondendo come si aspetta 😅😅
@TonyEmpirico
@TonyEmpirico 6 сағат бұрын
😂 che figata
@ConteMascetti1971
@ConteMascetti1971 10 сағат бұрын
Bellissimo!!!
@ConteMascetti1971
@ConteMascetti1971 10 сағат бұрын
manca la parte in cui sostiuisci il token sbagliato della parola arancina con il token di arancino
@lastguest
@lastguest 5 сағат бұрын
In sintesi e' l'equivalente del : "Si, ma sei sicuro?"
@GiacomoRandazzo
@GiacomoRandazzo 10 сағат бұрын
bellissimo video!
@Enrico-c3e
@Enrico-c3e 5 сағат бұрын
Mi sono sempre chiesto, e devo provare, se prendo i pesi di un modello distillato da 32b e ci cambio a caso 4 o 5 byte, quanto mi diverge dal modello originale? È come reinterrogare una persona dopo una notte di sonno o dopo una botta in testa? 😅
@esadecimale
@esadecimale 7 сағат бұрын
Questa cosa del togliere il tag per forzarlo a continuare a pensare è infamissima (e affascinante), mi ha fatto venire troppo in mente una scena specifica in Wohpe
@trainingfaustozampa8645
@trainingfaustozampa8645 11 сағат бұрын
Video come sempre toppp, veramente molto interessante. Se potessi condividere il codice magari crei una repo gh con tutti i codici che usi nei video, sarebbe bello per farci approfondire. Per il resto continua cosi!!
@antirez
@antirez 11 сағат бұрын
Grazie. Il codice di questo video è veramente quella minuscola modifica che si vede tra # XXX e # XXX. Purtroppo se dovessi organizzare repo eccetera non sarebbero più i venti minuti di registrazione del video, e dovrei farne molti di meno. Ma magari per qualcosa capiterà che faccio un repo col codice. Un caro saluto.
@gabrielegelardi9519
@gabrielegelardi9519 9 сағат бұрын
Mi ha colpito quando hai detto, riguardo alla chain of thought, che questa capacità è già presente nel pre-training. Ma invece di fare il fine-tuning con esempi specifici, non si potrebbe insegnare al modello a ragionare in modo logico in generale? Insegnargli la logica e come applicarla in una chain of thought. Se ha già le informazioni grazie al pre-training, allora manca solo un'aggregazione coerente di questi dati. Ps: il primo youtuber italiano serio che seguo su temi tech, Grande!
@antirez
@antirez 8 сағат бұрын
funziona meglio far vedere come ragionare che spiegare come ragionare
@GiacomoPracucci
@GiacomoPracucci 8 сағат бұрын
Ma un bel podcast con il mitico Piero Savastano a tema AI e open source?
@antirez
@antirez 8 сағат бұрын
sarebbe bello collaborare con tanti (proprio Pietro non lo conosco), ma io nella pratica sono molto solitario e i video li riesco a fare proprio perché quando mi gira registro senza dovermi mettere d’accordo con nessuno
@Marvin9994
@Marvin9994 7 сағат бұрын
Quando una live coding stream su mlx?
@TheChampagne2
@TheChampagne2 11 сағат бұрын
Molto interessante la parte dove vedi cosa succede quando lasci generare all'infinito. Sarebbe simpatico vedere se con lo stesso prompt si incarta sempre allo stesso modo, raggiungendo una sorta di distribuzione stazionaria nei token che genera
@calabrianGuy
@calabrianGuy 11 сағат бұрын
18:48 "vabbè ragazzi i casini che fanno nel machine learning" Perché negli altri campi la situazione è nettamente migliore 😂
@antirez
@antirez 11 сағат бұрын
Ma... sai che credo proprio sia così? Perché negli altri ambiti bene o male, anche se ci sono casini, sono casini fatti da informatici. Qui invece la mancanza di design risente moltissimo del fatto che le persone che si occupavano di ML tradizionalmente non erano informatici veri e propri (ma ora, sempre di più, sì), per cui è successo un po' ciò che era successo con le codebase scritte da fisici & simili.
@calabrianGuy
@calabrianGuy 11 сағат бұрын
Beh, messa su questo piano effettivamente è vero :) P.s. complimenti, bellissimi video, sempre pieni di spunti interessanti
@ragusawilliam1383
@ragusawilliam1383 8 сағат бұрын
Video super interessante. Grazie !
@axiomaticclarity324
@axiomaticclarity324 11 сағат бұрын
Questa è incredibile. 6 Dollari. Il paradigma di gente come Musk e Zuck viene completamente smontato.
@antirez
@antirez 11 сағат бұрын
@@axiomaticclarity324 bey, non proprio. È un fine tuning su un LLM tradizionale, e i documenti sono stati ottenuti interrogando un grosso LLM. Hanno semplicemente fatto un buon lavoro di ricerca su un aspetto specifico.
@OrfeoMorello
@OrfeoMorello 9 сағат бұрын
Mi piace vedere in pratica i risultati di un paper
@federico-bi2w
@federico-bi2w 12 сағат бұрын
...ecco il problema..."prendi dieci mila persone molto intelligenti e capaci dei propri domini"....🧐...🤣🤣🤣...e dove li troviamo....su marte???
@antirez
@antirez 11 сағат бұрын
Be' dai, si trovano :)
@federico-bi2w
@federico-bi2w 10 сағат бұрын
@antirez ...ok...forse devo riacquistare un po' di fiducia nella specie umana...🤔
@federico-bi2w
@federico-bi2w 10 сағат бұрын
...in ogni caso...bel video, grazie!...uno su quei diecimila lo abbiamo trovato! 🤗
Da VisiCalc a ChatGPT: La democratizzazione del coding
10:21
Salvatore Sanfilippo
Рет қаралды 2,6 М.
Colliding balls or: a broken way to test LLMs.
17:11
Salvatore Sanfilippo
Рет қаралды 2,2 М.
Гениальное изобретение из обычного стаканчика!
00:31
Лютая физика | Олимпиадная физика
Рет қаралды 4,8 МЛН
5 Secrets to Stop Stuttering & Speak More Clearly!
12:44
Vinh Giang
Рет қаралды 140 М.
Deepseek R1 - Open Source Reasoning!!! - [Sub EN] #deepseek #ai #opensource
32:37
Quadrata - Soluzioni OpenSource
Рет қаралды 429
How To Speak Fluently In English About Almost Anything
1:49:55
EnglishAnyone
Рет қаралды 3,4 МЛН
Un trucco matematico che non hai mai visto! (MOLTIPLICAZIONE A DUE CIFRE)
15:46
Mariano Pierantozzi
Рет қаралды 1 МЛН
François Chollet on OpenAI o-models and ARC
1:21:50
Machine Learning Street Talk
Рет қаралды 77 М.
Machine Learning: Le Basi (Intelligenza Artificiale) - Gianluca Mauro
15:19
Reti neurali: il teorema dell'approssimazione universale.
8:03
Salvatore Sanfilippo
Рет қаралды 2,5 М.
Testiamo assieme o3-mini di OpenAI, con un problema nuovo
21:54
Salvatore Sanfilippo
Рет қаралды 3,5 М.