¡Nuevo NEMOTRON 70B! ¿Es el modelo de NVIDIA mejor que GPT-4o?

Рет қаралды 75,963

Dot CSV Lab

Күн бұрын

Пікірлер: 122

@DotCSVLab 2 ай бұрын

🔴 SUSCRÍBETE PARA MÁS NOTICIAS Y TUTORIALES DE IA SEMANALES! :)

@elmegapeluco 2 ай бұрын

Como se que "te gustan" las paraonoias tipo Mr.Tartaria. Te recomiendo que veas el video "Metatron vs Nemotron y los vestigios de una simulacion" 😅

@nachoeigu 2 ай бұрын

Gracias por tu contenido, sos una referencia para muchos de nosotros. Tu forma de explicar las cosas es admirable. Seguí asi, saludos de Argentina!!!

@DelRioPrimo 2 ай бұрын

Es muuuuuuuuuuy bueno el cabrón

@RequiemForPAIN 2 ай бұрын

Creo que hay que tratar de evitar confusiones que puede tener la gente aquí. Estos prompts sobre cosas de física un LM no las puede razonar, sólo trata de encajar los razonamientos que ha leído. Sin un modelo del mundo esos conceptos físicos no significan nada; "pelota", "gravedad", "termodinámica", "tiempo". Al calcular la probabilidad de aparición del siguiente token, colocará esas palabras en un contexto de alta probabilidad según el texto con el que se ha entrenado. Es como si hiciésemos esas preguntas a un ser humano que haya pasado toda su vida en la cárcel leyendo libros y jamás haya experimentado las cosas en la vida real. Tenderá a buscar lo que más se parezca dentro de lo que haya leído, sin saber de qué está hablando. Para que un modelo pueda de verdad razonar y usar la lógica ("si A, entonces B"), necesita pensar dentro de la dimensión temporal y tener ojos para las otras tres dimensiones. Un modelo de visión que tokenice imágenes como frames.

@xavierv323 2 ай бұрын

grande

@octaviusp 2 ай бұрын

Por un lado tenes razòn, pero hay una teoria de representacion universal como lo explica Ilya Sutskever en su conversacion con Jensen Huang. El texto es una representación del mundo, pero sabemos que no la es toda. La vision es otra representaciòn que algunos dicen que es mas enriquecedora que el texto. Luego hay otra dimension que es el sonido, todas son distintas representaciones. Ilya dice que si bien el texto es una representacion media pobre del mundo, al escalarlo dramaticamente a trillones de textos, la representacion mejora sustancialmente. Aun asi, con avances en los VLMs, se busca armar la mejor representacion posible combinando vision y lenguaje, para luego sumarle audio, que tambien aporta informacon (quizas menos relevante que audio/texto) y probablemente en un futuro mas, como tacto, olfato, etc. Por lo tanto, tenes razon, pero si aumentamos dramaticamente la exposicion a texto se puede sacar un entendimiento de cosas fisicas.

@apartplage 2 ай бұрын

Aquí el problema es que de física real se sabe poco por no decir nada. Sabemos medir pero no acertar la causa, el porqué. La misma apariencia engaña por lo que los fundamentos están también escondidos a los sentidos. El si A entonces B es solo una condición causa efecto pero no da a entender el porqué que es donde la humanidad falla

@RequiemForPAIN 2 ай бұрын

@@octaviusp Es un buen punto. Es evidente por los resultados que la abstracción de los conceptos mejora al escalar el modelo. La proporción de veces que coloca una palabra correctamente dentro de un razonamiento aumenta con la exposición a esa palabra durante el entrenamiento, eso no lo puedo negar. Ahora, yo creo que la mayoría de la gente prueba estos prompts pensando que la capacidad de abstracción del modelo implica que puede visualizar/imaginar objetos boca arriba o boca abajo, dentro o fuera de algo, o distintos estados de la materia y la velocidad a la que cambian, cosas que le permitirían desarrollar el razonamiento lógico para resolver el puzle mediante el método científico (observas->predices->verificas). Pero cuando el modelo dice "no le da tiempo a congelarse el agua de un vaso en 5 segundos", está hablando de oídas y acertando por tirarse un triple, no lo puede saber ni por experiencia empírica (visual) ni tampoco por haber calculado la tasa de transferencia calórica de 300ml a -18ºC (matemáticas). Creo que hacer esta distinción es importante porque se supone que queremos hacer en el futuro modelos que puedan desarrollar nueva ciencia, y para seguir el método científico necesitas abstraer un modelo global, aunque sea matemático y no empírico. Si un modelo se basa sólo en lo que otros han dicho, lo máximo que va a poder hacer son metaestudios referenciales.

@hannibal8049 2 ай бұрын

Totalmente erróneo. Escucha a Ilya hablar sobre éste tema; la habilidad para predecir el siguiente token permite entender y razonar por parte del modelo que lo predice, igual que el cerebro humano. Que sea un "papagallo estocástico" no quita que no razone en el mismo modo que el cerebro.

@snake1987666 2 ай бұрын

genial, justo estaba buscando un modelo que encontrara las R en Strawberry

@LA.GALERNA 2 ай бұрын

El mejor comentario del vídeo. Tienes mis 10

@joelcoll4034 2 ай бұрын

Yo no se que mania con ese prompt, si es un tarea concreta que a los LLM les cuesta mucho por la manera que esan construidos, no tiene sentido obsesionarse con que resuelvan esa tarea

@CagliostroML 2 ай бұрын

@@joelcoll4034 La gracia es solventar el problema derivado de la tokenización haciendo que los LLM tengan un pensamiento lógico coherente que les permita resolver problemas out of the box.

@MataSessions 2 ай бұрын

Qué buena evaluación y tan clara explicación Carlos, gracias y saludos desde México!

@christianruiz8659 2 ай бұрын

🎯 Key points for quick navigation: 00:00:00 *🆕 Introducción del nuevo modelo Nemotron 70B* - NVIDIA ha lanzado un nuevo modelo de lenguaje, Nemotron 70B, que podría superar a GPT-4 y otros modelos, - Se mencionan los antecedentes del modelo, con mejoras significativas en rendimiento y disponibilidad en Hugging Face. 00:01:13 *📊 Comparación de Nemotron 70B con otros modelos* - Nemotron 70B supera en benchmarks clave al modelo Llama 3.1 de Meta, - Comparación en tres benchmarks: Arena Hard, Alpaca Eval, y MT Bench con resultados impresionantes. 00:03:30 *🔍 Detalles técnicos y limitaciones del modelo* - Aunque destaca en tareas generales, Nemotron no está afinado para dominios específicos como matemáticas y programación, - No es un "State of the Art" absoluto, pero se presenta como un modelo excelente para usos generales. 00:05:07 *🖥️ Uso y descarga del modelo Nemotron 70B* - Se explica cómo acceder y probar el modelo en plataformas como Hugging Face y LM Studio, - El modelo está disponible en versiones más ligeras para hardware menos potente. 00:07:00 *🧠 Ejemplos prácticos y pruebas de razonamiento* - Se realizan pruebas comparativas entre Nemotron y Llama 3.1 en tareas de procesamiento de palabras y lógica básica, - Nemotron muestra un rendimiento superior en la mayoría de las pruebas, aunque aún comete algunos errores. 00:09:07 *🎯 Problemas de razonamiento y comparación con otros modelos* - Comparación de Nemotron con GPT-4 y otros modelos privados en problemas complejos de lógica y razonamiento, - Se observan fallos en el razonamiento físico en varios modelos, pero Nemotron destaca en algunas áreas. 00:15:41 *🚀 Conclusiones sobre Nemotron 70B* - Aunque no supera a GPT-4 en todas las áreas, Nemotron 70B es un modelo open-source potente y versátil para tareas generales, - Su potencial de post-entrenamiento lo convierte en una herramienta valiosa para la comunidad. Made with HARPA AI

@JosemaríaVargas-j3h 2 ай бұрын

DotCSV, por favor, supera lo de Reflection 70b. A todos nos engañaron. 🥺

@nekosmic 2 ай бұрын

@mompoxinoennyc 2 ай бұрын

Hahahahaha, quien puede superar eso, alguien sabe de la vida del susodicho? Olvide su cuenta de x.

@jhonnypolitica5495 2 ай бұрын

@@nekosmic _Desde__#PureTuber_

@wairyhu 2 ай бұрын

a pesar de no ser basado en llama sino cloude. Si mejoraba en cierto grado el modelo. por eso hacia ruido mediatico

@CeroCool212004 18 күн бұрын

Cuenten el chisme completo.

@Redranddd 2 ай бұрын

10:49 es interesante que tenga la misma alucinación con el mismo problema que cuando usaste reflection

@iker1234567 2 ай бұрын

Carlos podrias comentar algo sobre Llama3.2?

@iLUxEY Ай бұрын

El spoiler es lo que necesitaba JAJAJAJA muchas graacias ahora ya veo el video tranquilo

@maxizavi6520 2 ай бұрын

Podrias chequearte los nuevos modelos de Ministral? estuve probando el 8B y me sorprendió lo genial que razona, al menos 9 de cada 10 preguntas acierta. Quiero imaginar que lo han mejorado a traves de COT. Saludos

@jossejosse952 2 ай бұрын

Ministral? O el modelo pixtral? Mala suerte para mi de no encontrarlos cuantizados.

@LuisRodriguezdz 2 ай бұрын

Gracias por el video Carlos!

@elquenoaplica3975 2 ай бұрын

Puedes hacer un video que resuma consultas ideales para medir rapidez, efectividad y asertividad de un modelo. Eres un master siempre aprendiendo contigo.

@pasmoluiso 2 ай бұрын

¿Qué herramienta usas para que el puntero se vea así?

@omarnug 2 ай бұрын

8:40 por cierto que después de desaparecer durante un mes, los de reflection reaparecieron diciendo que volvieron a probar y que sí, bueno... Algo servía pero que no era para tanto y bla bla. Todo menos aceptar que intentaron engañar a todo el mundo xD

@RandallMadrigal 2 ай бұрын

El giro del vaso de 180º en cual eje porque depende de eso, la respuesta es correcta o incorrecta.

@DotCSVLab 2 ай бұрын

El prompt indica que se gira 180° para dejarlo boca abajo.

@okamiBoom 2 ай бұрын

9:24 yo pense que la ia estaba mal pero creo que salio mas lista que yo 😭😭😭😭😭😭😭😭

@qVision_dev 2 ай бұрын

Podrías hacer uno de entrenar este tipo de modelos para que, por ejemplo, sean muy buenos leyendo documentos en una carpeta? Algo similar a lo que promete Apple Intelligence. Muchas gracias ☺️

@jackgaleras 2 ай бұрын

hola, gracias por el video

@fernandodiaz8231 2 ай бұрын

Te agradecería si puedes elaborar un video empleando la API de Nemotron 70B.

@CarlosOrzabal 2 ай бұрын

La verdad que viniendo de Nvidia, uno esperaría algo de alta calidad, no un modelo "maquillado". Músculo de hardware tienen de sobra para sacar algo asombroso o por lo menos muy bueno.

@Muferchus 2 ай бұрын

Totalmente de acuerdo. Estas comparaciones resultan tan poco interesantes porque los casos de prueba no tienen nada que ver con la realidad... nadie hace eso con los LLM, no tiene sentido testearlos así. Es como ponerse a hacer ruido con el motor de una moto en una esquina.

@joelcoll4034 2 ай бұрын

Nadie los usa para eso porque se les da mal hacerlo

@cosmicogeek9561 2 ай бұрын

Disculpa el link para ver el nuevo modelo

@EduardoAndersonRivasSalas 2 ай бұрын

Acabo de probar y la pelota si se queda en vaso XD

@alexandergr203 2 ай бұрын

9:25 yo no soy una ia y me equivoqué. Ahora dudo que en verdad exista.

@xelcj7457 2 ай бұрын

Esooooooo más dotcsvvv

@YoutubeAlgorithm01 2 ай бұрын

Qué haces en esa casa con esa ventana? Yo pensaba que DOT existía en un espacio confinado a la habitación esa del ordenador con los leds, se ve que la IA que lo procesa cada día es más puntera😂🙏

@Electronic_Cats Ай бұрын

Holaa. Yo lo he estado usando pero en un momento dado de la conversacion se le fue la pinza diciendo sinsentidos todo el rato, y tuve que abrir otro chat

@airdany 2 ай бұрын

Que el nuevo O1, no resuelva el último prompt menuda decepción ¿no?

@musxav 2 ай бұрын

No me convencé la pregunta de la taza y el giro de 180º, lo primero que pienso cuando dices giro es coger por el asa y girar la taza, un giro por su base, el asa estara 180º cambiada de sitio, si hubieras dicho giro vertical o por su eje y, entonces se entiende que quieres volcar la taza, por lo que para mi es ambiguo que de el resultado que quieres.

@HectorSs-qs4wu 2 ай бұрын

Si,esos test me parecen la mayoria de las veces ambiguos y da lugar al error.

@yaelsoto2742 2 ай бұрын

Es muy muy cierto eso!. Los modelos no entienden a que giro se refiere y despliegan varios escenarios posibles de una sola palabra 👌🏻

@DotCSVLab 2 ай бұрын

El prompt indica que se gira lentamente 180° boca abajo, no da lugar a mucha ambigüedad.

@facundogoiriz7323 2 ай бұрын

@@DotCSVLab Es ambiguo

@musxav 2 ай бұрын

@@DotCSVLab si es así, perdón que no lo había entendido así.

@hsin-jochangvivas5356 2 ай бұрын

Haz un video sobre llama3.1 405b

@MaximoPower2024 2 ай бұрын

El problema es que la mayoría de textos realizados por humanos que parecen un razonamiento lógico son en realidad racionalizaciones de conclusiones previas. Estos modelos imitan esta dinámica, pero con más torpeza a la hora de intuir la conclusión que luego tratarán de justificar.

@hannibal8049 2 ай бұрын

Es exactamente lo mismo que hacen nuestros cerebros cuando experimentan y modelan la realidad

@YoutubeUserl0l0 2 ай бұрын

Creo que cuando dices "girar 180 grados" algunas IAs lo interpretan como girar sobre su propio eje no voltear.

@jribesc 2 ай бұрын

Gracias !!!!

@LUISANGEL27 2 ай бұрын

Pero nvidia explica algo sobre como lo logró? Seria interesante un vídeo sobre eso

@Lv7-L30N 2 ай бұрын

gracias joven

@fuzzydark1395 2 ай бұрын

Lo importante no es si rinde como GPT-4 o mejor, sino si tiene mejor capacidad de "razonamiento" que GPT-o1...

@triplej3053 2 ай бұрын

No, no es su arquitectura, no es su objetivo. No puede.

@torrusoGHF 2 ай бұрын

Un sistema de razonamiento funcionará mejor con un modelo de lenguaje superior, uno da el contexto, el otro lo maneja para realizar tareas complejas.

@LuccaCedeño-p7m 2 ай бұрын

@@torrusoGHFno se trata de más parámetros

@patojp3363 2 ай бұрын

@@triplej3053cualquier modelo que superé a gpt4 puede mejorar lo que hace GPT o1. GPT o1 es un sistema de multiagentes que se ponen a sacar concluciones y corregirse entre ellos hasta llegar a una respuesta "razonable". Ese es el famoso razonamiento detras de GPT o1

@triplej3053 2 ай бұрын

Y por eso digo que no puede superar a o1. "Nemotron-1" quien sabe. Hay demasiados escenarios a considerar. Pero la comparacion es gpt4 vs o1 en "razonamiento".

@Padr3Maldito 2 ай бұрын

NotebookLM en su ultima actualización ya produce postcats en español. En configuracion de podcast solo hay que añadir despues de parta que audiencia esta dirigido(por ejemplo) EL podcast ha de ser en español de españa.

@exxteban1 2 ай бұрын

Solo que para ejecutar eso hay que tener una muy buena pc, mucha ram y buena gpu

@kahoz5 2 ай бұрын

me parece que la información actual que se les da a los LLMs es muy sesgada con tanto poder de procesamiento las preguntas deberían tener mucha más información sobre los objetos quizá eso ayude a dar respuestas más acertadas 🤔

@Darporal 2 ай бұрын

Memotron... Jejeje tiene el nombre que se le daría a un robot en una película de los años 80

@alex_saenz 2 ай бұрын

En el fondo, esto es realmente mas de lo mismo.

@davidmc3270 2 ай бұрын

Puedes hacer un tutorial de como descargarlo e instalarlo en la computadora por favor?

@maxizavi6520 2 ай бұрын

Si tenés más de 34 GB de VRAM o ram lo podes descargar desde lm studio

@Josman-ih3mz 2 ай бұрын

@@maxizavi6520es la capacidad de la tarjeta de video?

@andresmsuarez5718 2 ай бұрын

@@maxizavi6520 ahi mi madre yo que me compre una de 16gb rtx 4070 jahhaha y mira eso.

@wairyhu 2 ай бұрын

acaso no sacaron la versión llama 3.2? no la mencionaste ni comparaste

@DotCSVLab 2 ай бұрын

Llama 3.2 en texto rinde igual que la 3.1, la nueva versión sólo incorpora capacidades multimodales.

@wairyhu 2 ай бұрын

@@DotCSVLab aaaaah muchas gracias

@Carlos_Not_A_NPC 2 ай бұрын

Dot, ya han pasado varios meses, el accidente no fue tu culpa, tienes que dejarlo ir(a Reflection 70b) xd

@elpollittocientifico8038 2 ай бұрын

Vamoooooooo

@lui_sam2324 2 ай бұрын

El amigo de Carlos creador de Reflexion 70B ha conseguido que Nvidia entrene su modelo Es la unica conclusión a la que puedo llegar conociendo lo exquisito que es DOTCSV al escoger sus temas y al repetir dos veces que se parece mucho Que les parece mi hipotesis?

@lui_sam2324 2 ай бұрын

un me gusta de Carlos y confirmamos😜

@MariaJuanaFernandezGarcia 2 ай бұрын

Es para reflexion ar 😎

@RelatosdeRiqueza 2 ай бұрын

¿Será el Nemotron 70B realmente mejor que GPT-4o?

@DisociacionSinComplejos 2 ай бұрын

En el segundo ejemplo, el que está errado eres tú, no la IA. Porque al decir 9,11 o 9,9; No estas explicando el factor del decimal. Es como decir -El cuadro tiene 9.11 milímetros, y el otro 9.9 ¿Cuál es más grande? La respuesta es 9.11 por 2 milímetros.

@alfredoramirez8336 2 ай бұрын

La respuesta de chatgpt jajaja Te quedan tres plátanos. Si tenías cinco y ayer te comiste dos, restas 5 - 2, lo que da 3.

@eliasfarias3670 2 ай бұрын

Reflexion 2.0 jajaja

@georgetorres1535 2 ай бұрын

Uy me imagino el 405b

@carlosrivadulla8903 2 ай бұрын

no veo justo para el modelo que se le diga que gire el vaso 180º sin especificarle el eje de rotación

@yoverale 2 ай бұрын

O sea es un modelo para preguntarle boludeces y que las razone muy bien, entendido 😂

@JulianLasso 2 ай бұрын

Carlos, pregunta, pero entonces este modelo de 75Gb, si correría en una MacStudio de 192Gb de RAM y correría como si nada, verdad?

@angellpichuuxd 2 ай бұрын

Entiendo que lo vas a cargar en CPU, te va a consumir algo mas se 150GB, quizá con suerte tebconteste a 10 token por segundo, aunque si tienes el equipo prueba y comentas acá.

@JulianLasso 2 ай бұрын

@@angellpichuuxd Gracias por tu ayuda, te cuento que he hecho pruebas en equipos de 32Gb de RAM (M3) cargando modelos de 20Gb y el punto no es la RAM, que lógicamente marca el tema de capacidad, sino que no es lento en lo absoluto, de hecho se equipara con las tarjetas de vídeo de nVidia en temas de velocidad de respuesta, es por eso que me da curiosidad en preguntar "y si me compro una Mac Studio con 192Gb de RAM?", ahora sí me comprendes? O tienes quizás alguna experiencia en correr estos modelos en esas máquinas? Sé que la "RAM" en los chips de Apple se comparte con lo que sería la "VRAM", entonces por eso mi pregunta

@izkopz 2 ай бұрын

@@angellpichuuxd que hardware crees que sea necesario para poder correrlo, digamos de forma usable?

@lonewolf5606 2 ай бұрын

Y que responde a este promt : Si un tren va de Madrid a Barcelona a una velocidad de 280 km, hay 5 paradas las cuales duran 5 min cada una, cuántos años tiene el abuelo del conductor?

@YoutubeAlgorithm01 2 ай бұрын

"Si un tren va de Madrid a Barcelona a una velocidad de 280 km, hay 5 paradas las cuales duran 5 min cada una, cuántos años tiene el abuelo del conductor?": --------- Este tipo de pregunta es un clásico ejemplo de humor en el que la conclusión no puede derivarse de la información proporcionada. Aunque nos hablas de la velocidad del tren, el número de paradas y su duración, esos datos no están relacionados de ninguna manera con la edad del abuelo del conductor. Es simplemente una broma para resaltar lo absurdo de intentar resolver una pregunta que no tiene ninguna conexión lógica con los datos presentados. (Vaya mierda yo me esperaba que dijer 87 o algo así)

@DOOM202-4 2 ай бұрын

Gracias por el spoiler xdxdxd

@malexandersalazar 2 ай бұрын

Open Access, no Open Source.

@PappuChad 2 ай бұрын

Lo que se logra con horas gpu infinitas jajaja

@KerbalBasado 2 ай бұрын

Lo estuve trasteando y estoy un poco decepcionado. Comete algunos errores logicos, olvida detalles si la conversación se vuelve muy larga(+15 interacciones), muchas veces hace respuestas family friendly con respecto a las politicas de Meta AI. A pesar de hablar Inglés y español a la perfección, tardó 5 interacciones para entender el chiste detras del apodo del fundador de Facebook Mark Suckerverga.