GPT-4o vs Llama 3.1 ¿Quién gana? 🤯 Combate a 10 asaltos

Рет қаралды 14,809

Күн бұрын

Пікірлер: 84

@alfredolawler2205 2 ай бұрын

Xavier, muy bueno el vídeo, mi opinión es que la pregunta de la vela está confusa porque los modelos interpretan que las velas se apagan solas, es decir se consumen. Creo que se tendría que modificar el prompt para dejar claro que la vela es apagada exitosamente y no se consume. Gracias

@jackgaleras 2 ай бұрын

Gracias por el buen video, ya espero que el modelo GPT5 nivel doctorado resbale con la pregunta de las velas o el de las canicas

@facundoavila3403 2 ай бұрын

hay un modelo en el chat bot arena ya hay un video hecho en el canal que posiblemente sea el GPT- 4.5

@conradohernanvillagil2764 2 ай бұрын

Xavier excelente video. Gracias. Parece ser que aun estamos a distancias de un modelo autocognitivo. Podrías a futuro hacerles preguntas de tipo "thinking out the box" a ver como les va?.

@mubinafa 2 ай бұрын

Hice las mismas pruebas y me salió ganador en GPT-4o Mini, la versión 2024-07-18, más conocida como modelo: gpt-4o-mini-2024-07-18.

@JuanBallesteros-r5m 2 ай бұрын

Muy buen video! Tenía pendiente terminar de verlo. Creería que los fallos de la primer prueba podrían indicar que los modelos "piensan" en inglés. Across, knowledge y when

@elmegapeluco 2 ай бұрын

Hola Xavier, te recomiendo que pruebes el update4 de Mixtral Large 2. Ha mejorado muchísimo con respecto de las versiones anteriores. He probado algunosde esos acertijos y otros míos y ha respondido bien en la mayoría. Saludos.

@williams7073 2 ай бұрын

@XavierMitjana En el prompt de la ordenación de números alfabéticamente, podrías probar a preguntarles en inglés, a ver si saben la respuesta en inglés... Y si responde correctamente, eso podría indicar que podría ser un lapsus con el idioma español. Al igual que hacen cuando la alfabetización de parabas encadenadas... 🤔 Sólo es una sugerencia que podrías poner a prueba, tú que dices? 🤔🤣

@XaviIntheHouse 2 ай бұрын

hay veces que la respuesta es una traduccion del ingles. Recuerdo haberle preguntado sobre reglas idiomaticas del español y me respondio con reglas del ingles, pero como aseverando que eran del español

@SBZERO1 5 күн бұрын

cual de los dos es mas barato de usar?, quien gasta menos tu salgo?

@emahu 2 ай бұрын

Muy bueno el video, Xavier, gracias! ¿Dónde podría ver porqué le hacen esos retos tan curiosos, qué función o capacidad están evaluando?

@JordiCastellaIA 2 ай бұрын

Tengo que probar alguna de mis automatizaciones con Llama3.1, aunque dudo que supere en eficiencia y rapidez a GPT-4o mini. Estos modelos gigantes hace tiempo que han perdido todo el sentido para aplicaciones prácticas.😉

@XavierMitjana 2 ай бұрын

Para entornos de producción completamente de acuerdo, pero creo que la idea es que se use para crear datos sintéticos para entrenar los modelos más pequeños y destilar modelos a partir de su capacidad, maś que para usarlo en producción. Vamos, que lo ven como un modelo de desarrollo.

@Crisof 2 ай бұрын

Mi opinión es que este tipo de pruebas no demuestran nada, los KZbinrs, divulgadores de IA entre otros llevan mas de un año haciéndole las mismas preguntas a GPT, es sencillo agregar dicha información o que aparezca dicha información en internet y termine dentro de su Datasets, lo mismo pasará con las otras IAs, por lo que al final estos tests no son nada concluyentes, solo con desviar las preguntas los modelos sin importar cual sea, fallan por completo.

@XaviIntheHouse 2 ай бұрын

si y no, lo que dices se llama overfiting puede que pase eso...pero igual aprendería a responderlo bien y ese es el objetivo, con la ventaja que puede generalizarla a variaciones de la pregunta, lo malo es que tambien generalizara la respuesta

@Alex7nt 2 ай бұрын

Ya se viene el paper QuietStar

@weird.gomezzz 2 ай бұрын

en el 2:29 el lo de la K-c y la W-c es por que en inglés esas palabras son Knowledge (conocimiento) y When (cuando)

@cristozx 2 ай бұрын

Buenas Xavier me gustaria como poder acceder a estas inteligencias artificiales, por que lo he intentado con Meta pero como en Europa creo que no ha llegado todavia, lo he intentado fallidamente instalandome una extension de VPN en Virginia (EEUU) ,pero despues de loguearme con facebook me sigue diciendo que aqui no esta disponible en mi pais(que supuestamente es EEUU)....No se que estoy haciendo mal.Por favor me encantaria poder probarla.

@darioloco25 2 ай бұрын

Para que el diagnóstico sea contundente, se debe usar Llama desde su propio servidor y no desde intermediarios. La economía de tokens desde servidores de terceros, afecta la precisión de la respuesta.

@XavierMitjana 2 ай бұрын

En principio de todos los intermediarios, chatbot arena debería ser el que te permite usarlo de un modo más parecido al nativo. Más que nada porque la razón de ser de esta plataforma es comparar modelos. Por desgracia, desde Europa no he conseguido acceder a meta.ai, por lo que es lo mejor que tenía disponible.

@xtaedi5577 2 ай бұрын

Intente hacerles el acertijo de la barca y llama en la pagina de meta lo respondió bien

@RelatosdeRiqueza 2 ай бұрын

¿De verdad Llama 3.1 es mejor? A mí me sigue impresionando más GPT-4 🤔

@pjnoguerol 2 ай бұрын

Yo creo Xavier que contar el número de palabras de una respuesta no van a poder saberlo por ser modos de los modelos que infieren los resultados a trozos si responden vía Stream event para que se muestren resultados más rápidos, es decir que si se respondiera todo a la vez quizás si podrían, no lo sé, es una conjetura que tengo

@Muferchus 2 ай бұрын

Le pasa lo mismo que a una persona, no es una tarea que se pueda hacer en un paso al vuelo. Con solo implementar un pensamiento profundo podría hacerlo, algo similar a lo que hace cuando chatgpt cuando analiza con un lenguaje de programación o algo así, solo que lo que pueda hacer es razonar internamente, pulir la respuesta y luego responder. Imagino un momento donde para algunos problemas estas IAs creen módulos que luego ejecuten y vayan puliendo internamente para realizar algunas tareas. Por ejemplo, los que trabajamos con números mentalmente tenemos unas "rutinas" de simplificación para algunas cosas. En lo que estás diciendo, podría ser tranquilamente que haga un script donde cuente las palabras de una respuesta y entregue el numero a escribir. Y luego que le quede de por vida. Lo curioso es que podes hablando hacer que lo implemente, pero tenes que explicárselo. Eventualmente yo creo que podría llegar a hacerlo de forma automática.

@XavierMitjana 2 ай бұрын

Es una tarea que por como funciona, la intuición dice que no pueden resolver, pero también identifica una limitación de la tecnología. Por eso me gusta ponerla. Pero completamente de acuerdo, lo más normal es que lo hagan mal por mucho que mejoren hasta que no cambien su manera de generar los textos.

@ernesto.iglesias 2 ай бұрын

@@Muferchuscuenta las palabras que dices una a una y responde al final con la palabra "palabra" diciendo el número contado más una, por eso se que te respondí con 4 palabras, ups me equivoqué

@rodrigoberrocal1439 2 ай бұрын

sería bueno saber cuantos tokens usó cada uno en cada prueba. Excelente video! gracias

@XavierMitjana 2 ай бұрын

Muchas gracias! Pues no te dan el contador, con OpenAI puede solucionarlo probándolo vía API, con Meta debería buscar un proveedor similar.

@XaviIntheHouse 2 ай бұрын

no seria taaan comparable porque cada lenguaje puede crear un tipo de token diferente. Es como decir comparemos monedas de dolar y de euros, si bien ambos representan el valor monetario de algo, no son comparables directamente. Es mas los token de ChatGPT 3 son diferentes a los de ChatGPT 4

@rodrigoberrocal1439 2 ай бұрын

Tienes toda la razón gracias por la aclaración. Saludos

@edwinintriago6093 2 ай бұрын

Xavier ¿cual sería la ai mas inteligente en la actualidad?

@XavierMitjana 2 ай бұрын

Por benchmarks diría que Claude 3.5 Sonnet... aunque muy a la par con Llama y GPT-4o, en comparaciones de uso parece que GPT-4o se muestra más útil.

@xTHORx07 2 ай бұрын

Una pregunta desde mi ignorancia,la ia mejora sola o son las empresas las q las mejoran

@toniduque4882 2 ай бұрын

Son las empresas las que la mejoran mediante entrenamiento. Todavía no existe esa inteligencia que aprende de su propia experiencia y mucho me temo que cuando exista la limitarán por cuestión de seguridad. Nadie quiere un skinet en su vida.

@FernandoRodriguezM 2 ай бұрын

Aprenden por si solas segun parametros que solo regulan luego. Lo se porque cuando acusaron a GPT 4 de estar perezozo dijeron que asi reacciono la AI y no la habian revisado

@toniduque4882 2 ай бұрын

@@FernandoRodriguezM no confundas a la gente. Aprenden unicamente tras un nuevo entrenamiento. Si aprendieran por sí solas no necesitarían sacar nuevas versiones. Dejarían que aprendieran y evolucionarán y ya está

@FernandoRodriguezM 2 ай бұрын

@@toniduque4882 como me explicas lo que ellos mismos dijeron cuando GPT4 se volvio perezozo?

@toniduque4882 2 ай бұрын

@@FernandoRodriguezM No hace falta que lo explique yo ya que el propio artículo explica por sí solo el tema de GPT4 perezoso y no, no tiene absolutamente nada que ver con una IA que aprende por sí misma. Revisa el artículo de nuevo e intenta entenderlo.

@facundoavila3403 2 ай бұрын

muy bueno

@cstbb568 2 ай бұрын

Deberías repetir las pruebas varias veces y sacar una media, las respuestas no son consistentes. Ayer probé lo de las manzanas con GPT-4 y me lo hizo correcto (excepto lo de que se come el plural)

@emmanuelgarcia5451 2 ай бұрын

estaria bien hacer una comparacion con GPT-4o mini y llama 3.1 70B ya que el modelo de llama mejoro y en precio los dos son baratos, entonces seria interesante ver cual es mejor

@XavierMitjana 2 ай бұрын

Posiblemente esta comparación la haga en el canal de lab. De hecho, hoy he visto algunas publicaciones donde se ve como el modelo de 8B fine tuneado supera en tareas específicas al GPT-4o mini. Por lo que puede ser un duelo interesante.

@emmanuelgarcia5451 2 ай бұрын

@@XavierMitjana estaria mucho mas interesante ese duele ya que al modelo llama de 405B solo muy pocos podemos procesarlo en nuestras computadoras y modelos como 8B y 70B son mas facil aprovecharlos y sacarles muchisimo mas potencial

@toniduque4882 2 ай бұрын

@@emmanuelgarcia5451 Pocos? más bien ninguno. Necesitarías casi un tera de vram. Con cuantización algo menos pero aun prohibitivo para un particular.

@emmanuelgarcia5451 2 ай бұрын

@@toniduque4882 pocos, empresas, universidades, centros de investigación, algún gobierno

@granjugadorperuanodestructorde 2 ай бұрын

Falta comparar las IA con cada lenguaje de programacion desde informes hasta ejecutar mini proyectos :v

@XavierMitjana 2 ай бұрын

Esta parte suelo eludirla porque a mí me cuesta más evaluar el resultado de la máquina y más allá de hacer preguntas habituales o que haya visto en otros sitios, se me quedaría un poco cojo.

@ernesto.iglesias 2 ай бұрын

Regalarle el primer punto a OpenAI también estuvo pésimo porque el inicio estuvo bien pero se perdió completamente al final. Ambos fallaron en caso la misma cantidad de palabras

@XavierMitjana 2 ай бұрын

Tienes razón, igual debería haber contado medio punto. En mi opinión, sin hacerlo perfecto, sí que el modelo de OpenAI lo resolvió mejor.

@scampinimyd 2 ай бұрын

Mistral funciona más o menos igual, pero con muchos menos parámetros, por ende es bastante más eficiente. Pero parece que no se toca mucho el tema Mistral aca.

@XavierMitjana 2 ай бұрын

En el vídeo de hoy hablaré de él y le dedicaré un poco más de espacio. Lo que pasa es que se han puesto todos de acuerdo para lanzar novedades, no me da la vida. xD

@scampinimyd 2 ай бұрын

@@XavierMitjana Eso es verdad, ha salido todo junto. Solo me referia que en general no tocas Mistral, no se si porque no es suficientemente bueno o por que motivo. Como sea, ahi estare para ver el video.

@PsiqueLogos 2 ай бұрын

en la integración de WhatsApp me da unas respuestas ridículas y sin sentido cuando le pido resumir un enlace de puro texto en la web.

@joelstonestreeh9263 2 ай бұрын

Yo quería ver la pelea

@earnedo 2 ай бұрын

14:10 Lo probé con chat GPT 4o y me dio el catorce.

@earnedo 2 ай бұрын

Si extendemos esta lista hasta el 100, encontraremos que el primer número por orden alfabético es “cien”. Sin embargo, solo si consideramos del 1 al 100, el primer número es “catorce”.

@oscarmau 2 ай бұрын

👍

@centrointernetbds 2 ай бұрын

El problema es que las capacidades de Gpt4o son más diversas que las de llama. Multimodalidad.

@XavierMitjana 2 ай бұрын

Es diferente, de todos modos, la próxima generación de modelos de Meta ya han insinuado que será multimodal.

@centrointernetbds 2 ай бұрын

@@XavierMitjana Lastima que el hardware sigue siendo muy caro. Pero estás capacidades son muy buenas para trabajar fuera de la nube en proyectos personales.

@ernesto.iglesias 2 ай бұрын

Lama 3.1 es multimodal, lo que todavía está en pruebas de seguridad (está en el artículo)

@centrointernetbds 2 ай бұрын

@@ernesto.iglesias Eso me alegra bastante.

@KarelyQueen 2 ай бұрын

Deja que Elon prenda sus 100,000 nvidias

@taquionAtemporal 2 ай бұрын

LLAmA 3.1🥊🤜GPT 4 mini

@germanmartinez6226 2 ай бұрын

Se nota que aún les falta, están muy parejos aunque chat es un pelín mejor, veremos cómo evolucionarán a futuro. Saludos ✨😊

@expandiendociencia7633 2 ай бұрын

Da igual quien sea mejor por nimiedades, lo que importa es cuál te da un mayor costo beneficio para producción. En eso OpenAI tiene una enorme ventaja con gpt4o-mini, que es una maravilla en costo beneficio mediante su API. Aquí hablemos las cosas claras, lo que quiere Meta con opensource no es ayudar a la humanidad, lo que quiere es bajarse a OpenAI, y sacará modelos opensource hasta que logre su objetivo, de ahí a cobrar. Lo mismo con todos. Pero sinceramente creo que OpenAI tiene muchos AS bajo la manga...

@diesirae4546 2 ай бұрын

Pienso igual, despues del fracaso del metaverso de meta, ahora hacen esto a la desesperada para no quedarse atras. Es cosa de tiempo para que prohiban modales tan grandes en open source y meta habra avanzado basante en su modelo gracias a programadores trabajandole gratis

@XavierMitjana 2 ай бұрын

Pues yo no estoy de acuerdo, para entornos de producción los modelos de meta parecen más interesantes. Hoy he visto una publicación donde habían comprobado como el modelo finetuneado de 8B de Llama 3.1 podía superar en la mayoría de tareas a GPT-4o mini. Y el modelo de 8B puede ejecutarse en local o en cualquier servidor modesto con todo lo que supone de beneficios de seguridad, estabilidad y personalización. Vamos, que más allá de la simpatía que se pueda tener a las empresas, yo lo que veo es que OpenAI este año ha perdido 5.000 millones y que por más que estén en la vanguardía, no disponen de un producto diferencial y que las diferencias son cada vez menores con la competencia.

@expandiendociencia7633 2 ай бұрын

@@XavierMitjana Tienes que ver los precios y el uso. Los LLM en productos reales no se van a usar para sumar o restar, sino para interpretar mucho texto, con RAG y agentes. A este punto son tan buenos todos que son suficientes para RAG. Y son tan buenos que lo que más importa es el precio de la API por millón de tokens... ahí OpenAI es indiscutible ganador, pero esos benchmarks lo único que hacen es cebar al público puramente usuario que está enfocado en lo menos importante.

@atari934 2 ай бұрын

Teniendo en cuenta que cada semana hay una nueva mejor plataforma por las constantes actualizaciones en IA, e incluso nuevas plataformas que intentan competir aportando algunas características diferentes, cuál de todas vale la pena pagar para un uso más versátil?

@XaviIntheHouse 2 ай бұрын

de cabeza y sin pensarlo OpenAI gana y tienes posibilidad de generar e interpretar Audio, Texto e Imagen y si sabes hacerlo hasta interpretación de videos, que en realidad lo que hay que hacer es transcripción con los tiempos y sacar fotogramas del video con los tiempos y que el modelo haga su magia. Pero, como todo en la vida puede que hasta halla formas más eficientes de interpretación de video. Ademas tienes gran cantidad de modelos

@toniduque4882 2 ай бұрын

En cuestión de código (Es para lo que suelo utilizar estos modelos) he utilizado ampliamente chatgpto y claude 3.5 sonnet y me quedo con claude. Además sale 2 o 3 euros más barato.

@KarelyQueen 2 ай бұрын

Deja que salga grok 3