Xavier, muy bueno el vídeo, mi opinión es que la pregunta de la vela está confusa porque los modelos interpretan que las velas se apagan solas, es decir se consumen. Creo que se tendría que modificar el prompt para dejar claro que la vela es apagada exitosamente y no se consume. Gracias
@jackgaleras2 ай бұрын
Gracias por el buen video, ya espero que el modelo GPT5 nivel doctorado resbale con la pregunta de las velas o el de las canicas
@facundoavila34032 ай бұрын
hay un modelo en el chat bot arena ya hay un video hecho en el canal que posiblemente sea el GPT- 4.5
@conradohernanvillagil27642 ай бұрын
Xavier excelente video. Gracias. Parece ser que aun estamos a distancias de un modelo autocognitivo. Podrías a futuro hacerles preguntas de tipo "thinking out the box" a ver como les va?.
@mubinafa2 ай бұрын
Hice las mismas pruebas y me salió ganador en GPT-4o Mini, la versión 2024-07-18, más conocida como modelo: gpt-4o-mini-2024-07-18.
@JuanBallesteros-r5m2 ай бұрын
Muy buen video! Tenía pendiente terminar de verlo. Creería que los fallos de la primer prueba podrían indicar que los modelos "piensan" en inglés. Across, knowledge y when
@elmegapeluco2 ай бұрын
Hola Xavier, te recomiendo que pruebes el update4 de Mixtral Large 2. Ha mejorado muchísimo con respecto de las versiones anteriores. He probado algunosde esos acertijos y otros míos y ha respondido bien en la mayoría. Saludos.
@williams70732 ай бұрын
@XavierMitjana En el prompt de la ordenación de números alfabéticamente, podrías probar a preguntarles en inglés, a ver si saben la respuesta en inglés... Y si responde correctamente, eso podría indicar que podría ser un lapsus con el idioma español. Al igual que hacen cuando la alfabetización de parabas encadenadas... 🤔 Sólo es una sugerencia que podrías poner a prueba, tú que dices? 🤔🤣
@XaviIntheHouse2 ай бұрын
hay veces que la respuesta es una traduccion del ingles. Recuerdo haberle preguntado sobre reglas idiomaticas del español y me respondio con reglas del ingles, pero como aseverando que eran del español
@SBZERO15 күн бұрын
cual de los dos es mas barato de usar?, quien gasta menos tu salgo?
@emahu2 ай бұрын
Muy bueno el video, Xavier, gracias! ¿Dónde podría ver porqué le hacen esos retos tan curiosos, qué función o capacidad están evaluando?
@JordiCastellaIA2 ай бұрын
Tengo que probar alguna de mis automatizaciones con Llama3.1, aunque dudo que supere en eficiencia y rapidez a GPT-4o mini. Estos modelos gigantes hace tiempo que han perdido todo el sentido para aplicaciones prácticas.😉
@XavierMitjana2 ай бұрын
Para entornos de producción completamente de acuerdo, pero creo que la idea es que se use para crear datos sintéticos para entrenar los modelos más pequeños y destilar modelos a partir de su capacidad, maś que para usarlo en producción. Vamos, que lo ven como un modelo de desarrollo.
@Crisof2 ай бұрын
Mi opinión es que este tipo de pruebas no demuestran nada, los KZbinrs, divulgadores de IA entre otros llevan mas de un año haciéndole las mismas preguntas a GPT, es sencillo agregar dicha información o que aparezca dicha información en internet y termine dentro de su Datasets, lo mismo pasará con las otras IAs, por lo que al final estos tests no son nada concluyentes, solo con desviar las preguntas los modelos sin importar cual sea, fallan por completo.
@XaviIntheHouse2 ай бұрын
si y no, lo que dices se llama overfiting puede que pase eso...pero igual aprendería a responderlo bien y ese es el objetivo, con la ventaja que puede generalizarla a variaciones de la pregunta, lo malo es que tambien generalizara la respuesta
@Alex7nt2 ай бұрын
Ya se viene el paper QuietStar
@weird.gomezzz2 ай бұрын
en el 2:29 el lo de la K-c y la W-c es por que en inglés esas palabras son Knowledge (conocimiento) y When (cuando)
@cristozx2 ай бұрын
Buenas Xavier me gustaria como poder acceder a estas inteligencias artificiales, por que lo he intentado con Meta pero como en Europa creo que no ha llegado todavia, lo he intentado fallidamente instalandome una extension de VPN en Virginia (EEUU) ,pero despues de loguearme con facebook me sigue diciendo que aqui no esta disponible en mi pais(que supuestamente es EEUU)....No se que estoy haciendo mal.Por favor me encantaria poder probarla.
@darioloco252 ай бұрын
Para que el diagnóstico sea contundente, se debe usar Llama desde su propio servidor y no desde intermediarios. La economía de tokens desde servidores de terceros, afecta la precisión de la respuesta.
@XavierMitjana2 ай бұрын
En principio de todos los intermediarios, chatbot arena debería ser el que te permite usarlo de un modo más parecido al nativo. Más que nada porque la razón de ser de esta plataforma es comparar modelos. Por desgracia, desde Europa no he conseguido acceder a meta.ai, por lo que es lo mejor que tenía disponible.
@xtaedi55772 ай бұрын
Intente hacerles el acertijo de la barca y llama en la pagina de meta lo respondió bien
@RelatosdeRiqueza2 ай бұрын
¿De verdad Llama 3.1 es mejor? A mí me sigue impresionando más GPT-4 🤔
@pjnoguerol2 ай бұрын
Yo creo Xavier que contar el número de palabras de una respuesta no van a poder saberlo por ser modos de los modelos que infieren los resultados a trozos si responden vía Stream event para que se muestren resultados más rápidos, es decir que si se respondiera todo a la vez quizás si podrían, no lo sé, es una conjetura que tengo
@Muferchus2 ай бұрын
Le pasa lo mismo que a una persona, no es una tarea que se pueda hacer en un paso al vuelo. Con solo implementar un pensamiento profundo podría hacerlo, algo similar a lo que hace cuando chatgpt cuando analiza con un lenguaje de programación o algo así, solo que lo que pueda hacer es razonar internamente, pulir la respuesta y luego responder. Imagino un momento donde para algunos problemas estas IAs creen módulos que luego ejecuten y vayan puliendo internamente para realizar algunas tareas. Por ejemplo, los que trabajamos con números mentalmente tenemos unas "rutinas" de simplificación para algunas cosas. En lo que estás diciendo, podría ser tranquilamente que haga un script donde cuente las palabras de una respuesta y entregue el numero a escribir. Y luego que le quede de por vida. Lo curioso es que podes hablando hacer que lo implemente, pero tenes que explicárselo. Eventualmente yo creo que podría llegar a hacerlo de forma automática.
@XavierMitjana2 ай бұрын
Es una tarea que por como funciona, la intuición dice que no pueden resolver, pero también identifica una limitación de la tecnología. Por eso me gusta ponerla. Pero completamente de acuerdo, lo más normal es que lo hagan mal por mucho que mejoren hasta que no cambien su manera de generar los textos.
@ernesto.iglesias2 ай бұрын
@@Muferchuscuenta las palabras que dices una a una y responde al final con la palabra "palabra" diciendo el número contado más una, por eso se que te respondí con 4 palabras, ups me equivoqué
@rodrigoberrocal14392 ай бұрын
sería bueno saber cuantos tokens usó cada uno en cada prueba. Excelente video! gracias
@XavierMitjana2 ай бұрын
Muchas gracias! Pues no te dan el contador, con OpenAI puede solucionarlo probándolo vía API, con Meta debería buscar un proveedor similar.
@XaviIntheHouse2 ай бұрын
no seria taaan comparable porque cada lenguaje puede crear un tipo de token diferente. Es como decir comparemos monedas de dolar y de euros, si bien ambos representan el valor monetario de algo, no son comparables directamente. Es mas los token de ChatGPT 3 son diferentes a los de ChatGPT 4
@rodrigoberrocal14392 ай бұрын
Tienes toda la razón gracias por la aclaración. Saludos
@edwinintriago60932 ай бұрын
Xavier ¿cual sería la ai mas inteligente en la actualidad?
@XavierMitjana2 ай бұрын
Por benchmarks diría que Claude 3.5 Sonnet... aunque muy a la par con Llama y GPT-4o, en comparaciones de uso parece que GPT-4o se muestra más útil.
@xTHORx072 ай бұрын
Una pregunta desde mi ignorancia,la ia mejora sola o son las empresas las q las mejoran
@toniduque48822 ай бұрын
Son las empresas las que la mejoran mediante entrenamiento. Todavía no existe esa inteligencia que aprende de su propia experiencia y mucho me temo que cuando exista la limitarán por cuestión de seguridad. Nadie quiere un skinet en su vida.
@FernandoRodriguezM2 ай бұрын
Aprenden por si solas segun parametros que solo regulan luego. Lo se porque cuando acusaron a GPT 4 de estar perezozo dijeron que asi reacciono la AI y no la habian revisado
@toniduque48822 ай бұрын
@@FernandoRodriguezM no confundas a la gente. Aprenden unicamente tras un nuevo entrenamiento. Si aprendieran por sí solas no necesitarían sacar nuevas versiones. Dejarían que aprendieran y evolucionarán y ya está
@FernandoRodriguezM2 ай бұрын
@@toniduque4882 como me explicas lo que ellos mismos dijeron cuando GPT4 se volvio perezozo?
@toniduque48822 ай бұрын
@@FernandoRodriguezM No hace falta que lo explique yo ya que el propio artículo explica por sí solo el tema de GPT4 perezoso y no, no tiene absolutamente nada que ver con una IA que aprende por sí misma. Revisa el artículo de nuevo e intenta entenderlo.
@facundoavila34032 ай бұрын
muy bueno
@cstbb5682 ай бұрын
Deberías repetir las pruebas varias veces y sacar una media, las respuestas no son consistentes. Ayer probé lo de las manzanas con GPT-4 y me lo hizo correcto (excepto lo de que se come el plural)
@emmanuelgarcia54512 ай бұрын
estaria bien hacer una comparacion con GPT-4o mini y llama 3.1 70B ya que el modelo de llama mejoro y en precio los dos son baratos, entonces seria interesante ver cual es mejor
@XavierMitjana2 ай бұрын
Posiblemente esta comparación la haga en el canal de lab. De hecho, hoy he visto algunas publicaciones donde se ve como el modelo de 8B fine tuneado supera en tareas específicas al GPT-4o mini. Por lo que puede ser un duelo interesante.
@emmanuelgarcia54512 ай бұрын
@@XavierMitjana estaria mucho mas interesante ese duele ya que al modelo llama de 405B solo muy pocos podemos procesarlo en nuestras computadoras y modelos como 8B y 70B son mas facil aprovecharlos y sacarles muchisimo mas potencial
@toniduque48822 ай бұрын
@@emmanuelgarcia5451 Pocos? más bien ninguno. Necesitarías casi un tera de vram. Con cuantización algo menos pero aun prohibitivo para un particular.
@emmanuelgarcia54512 ай бұрын
@@toniduque4882 pocos, empresas, universidades, centros de investigación, algún gobierno
@granjugadorperuanodestructorde2 ай бұрын
Falta comparar las IA con cada lenguaje de programacion desde informes hasta ejecutar mini proyectos :v
@XavierMitjana2 ай бұрын
Esta parte suelo eludirla porque a mí me cuesta más evaluar el resultado de la máquina y más allá de hacer preguntas habituales o que haya visto en otros sitios, se me quedaría un poco cojo.
@ernesto.iglesias2 ай бұрын
Regalarle el primer punto a OpenAI también estuvo pésimo porque el inicio estuvo bien pero se perdió completamente al final. Ambos fallaron en caso la misma cantidad de palabras
@XavierMitjana2 ай бұрын
Tienes razón, igual debería haber contado medio punto. En mi opinión, sin hacerlo perfecto, sí que el modelo de OpenAI lo resolvió mejor.
@scampinimyd2 ай бұрын
Mistral funciona más o menos igual, pero con muchos menos parámetros, por ende es bastante más eficiente. Pero parece que no se toca mucho el tema Mistral aca.
@XavierMitjana2 ай бұрын
En el vídeo de hoy hablaré de él y le dedicaré un poco más de espacio. Lo que pasa es que se han puesto todos de acuerdo para lanzar novedades, no me da la vida. xD
@scampinimyd2 ай бұрын
@@XavierMitjana Eso es verdad, ha salido todo junto. Solo me referia que en general no tocas Mistral, no se si porque no es suficientemente bueno o por que motivo. Como sea, ahi estare para ver el video.
@PsiqueLogos2 ай бұрын
en la integración de WhatsApp me da unas respuestas ridículas y sin sentido cuando le pido resumir un enlace de puro texto en la web.
@joelstonestreeh92632 ай бұрын
Yo quería ver la pelea
@earnedo2 ай бұрын
14:10 Lo probé con chat GPT 4o y me dio el catorce.
@earnedo2 ай бұрын
Si extendemos esta lista hasta el 100, encontraremos que el primer número por orden alfabético es “cien”. Sin embargo, solo si consideramos del 1 al 100, el primer número es “catorce”.
@oscarmau2 ай бұрын
👍
@centrointernetbds2 ай бұрын
El problema es que las capacidades de Gpt4o son más diversas que las de llama. Multimodalidad.
@XavierMitjana2 ай бұрын
Es diferente, de todos modos, la próxima generación de modelos de Meta ya han insinuado que será multimodal.
@centrointernetbds2 ай бұрын
@@XavierMitjana Lastima que el hardware sigue siendo muy caro. Pero estás capacidades son muy buenas para trabajar fuera de la nube en proyectos personales.
@ernesto.iglesias2 ай бұрын
Lama 3.1 es multimodal, lo que todavía está en pruebas de seguridad (está en el artículo)
@centrointernetbds2 ай бұрын
@@ernesto.iglesias Eso me alegra bastante.
@KarelyQueen2 ай бұрын
Deja que Elon prenda sus 100,000 nvidias
@taquionAtemporal2 ай бұрын
LLAmA 3.1🥊🤜GPT 4 mini
@germanmartinez62262 ай бұрын
Se nota que aún les falta, están muy parejos aunque chat es un pelín mejor, veremos cómo evolucionarán a futuro. Saludos ✨😊
@expandiendociencia76332 ай бұрын
Da igual quien sea mejor por nimiedades, lo que importa es cuál te da un mayor costo beneficio para producción. En eso OpenAI tiene una enorme ventaja con gpt4o-mini, que es una maravilla en costo beneficio mediante su API. Aquí hablemos las cosas claras, lo que quiere Meta con opensource no es ayudar a la humanidad, lo que quiere es bajarse a OpenAI, y sacará modelos opensource hasta que logre su objetivo, de ahí a cobrar. Lo mismo con todos. Pero sinceramente creo que OpenAI tiene muchos AS bajo la manga...
@diesirae45462 ай бұрын
Pienso igual, despues del fracaso del metaverso de meta, ahora hacen esto a la desesperada para no quedarse atras. Es cosa de tiempo para que prohiban modales tan grandes en open source y meta habra avanzado basante en su modelo gracias a programadores trabajandole gratis
@XavierMitjana2 ай бұрын
Pues yo no estoy de acuerdo, para entornos de producción los modelos de meta parecen más interesantes. Hoy he visto una publicación donde habían comprobado como el modelo finetuneado de 8B de Llama 3.1 podía superar en la mayoría de tareas a GPT-4o mini. Y el modelo de 8B puede ejecutarse en local o en cualquier servidor modesto con todo lo que supone de beneficios de seguridad, estabilidad y personalización. Vamos, que más allá de la simpatía que se pueda tener a las empresas, yo lo que veo es que OpenAI este año ha perdido 5.000 millones y que por más que estén en la vanguardía, no disponen de un producto diferencial y que las diferencias son cada vez menores con la competencia.
@expandiendociencia76332 ай бұрын
@@XavierMitjana Tienes que ver los precios y el uso. Los LLM en productos reales no se van a usar para sumar o restar, sino para interpretar mucho texto, con RAG y agentes. A este punto son tan buenos todos que son suficientes para RAG. Y son tan buenos que lo que más importa es el precio de la API por millón de tokens... ahí OpenAI es indiscutible ganador, pero esos benchmarks lo único que hacen es cebar al público puramente usuario que está enfocado en lo menos importante.
@atari9342 ай бұрын
Teniendo en cuenta que cada semana hay una nueva mejor plataforma por las constantes actualizaciones en IA, e incluso nuevas plataformas que intentan competir aportando algunas características diferentes, cuál de todas vale la pena pagar para un uso más versátil?
@XaviIntheHouse2 ай бұрын
de cabeza y sin pensarlo OpenAI gana y tienes posibilidad de generar e interpretar Audio, Texto e Imagen y si sabes hacerlo hasta interpretación de videos, que en realidad lo que hay que hacer es transcripción con los tiempos y sacar fotogramas del video con los tiempos y que el modelo haga su magia. Pero, como todo en la vida puede que hasta halla formas más eficientes de interpretación de video. Ademas tienes gran cantidad de modelos
@toniduque48822 ай бұрын
En cuestión de código (Es para lo que suelo utilizar estos modelos) he utilizado ampliamente chatgpto y claude 3.5 sonnet y me quedo con claude. Además sale 2 o 3 euros más barato.
@KarelyQueen2 ай бұрын
Deja que salga grok 3
@Gerardo777ful2 ай бұрын
Las mismas preguntas de siempre....
@arieligena72 ай бұрын
Ojo que salió el nuevo mistral y que sería mejor que llama
@TankhiedKanselop2 ай бұрын
Eso venía a comentar ayer que lo probé dije seguramente hoy los videos serán de Mistral large 2 y no de llama 3.1 😢
@emmanuelgarcia54512 ай бұрын
como se llama?
@TankhiedKanselop2 ай бұрын
@@emmanuelgarcia5451 literal lo dice mi comentario xd "Mistral Large 2" lo puedes probar ya mismo en la consola de Mistral
@XavierMitjana2 ай бұрын
Tenía este pendiente desde ayer, la noticia de Mistral está en la recámara. A ver si me da tiempo de probarlo en condiciones.
@Gerardo777ful2 ай бұрын
En un mundo tan violento, salir con ese ejemplo tétrico de los asesinos. No se porqué esos modelos no le censuran la pregunta
@KARA-IA2 ай бұрын
Es solo una pregunta, como cuando hablamos del crimen, las guerras, la pobreza.