Рет қаралды 1,410
En el episodio de hoy vamos a poner frente a frente a dos de los modelos de visión más recientes y accesibles: Llama 3.2 y MiniCPM-V. Para ello utilizaremos un herramienta multiplataforma llamada Msty, que nos permitirá ver las salidas de los modelos de lenguaje lado a lado. Comprobaremos cuál es el rendimiento de estos modelos identificando elementos en imágenes, respondiendo preguntas, extrayendo texto, organizando la información visual y mucho más.
Si tienes alguna propuesta para pruebas futuras o quieres saber más sobre Msty, deja tu comentario y dale a like!
Msty App: msty.app
Modelo Llama 3.2 11B Vision: huggingface.co...
Modelo MiniCPM-V 2.6: huggingface.co...