Usando Whisper, la IA gratuita y libre de OpenAI para transcribir audio

  Рет қаралды 86,956

makigas

makigas

Жыл бұрын

Whisper es un programa de código abierto (!!) que mediante inteligencia artificial es capaz de tomar un archivo de audio (o de vídeo, si es capaz de extraerlo por su cuenta) y transformarlo a texto, interpretando lo que se dice y con una tasa de precisión que, aunque no es del 100%, es bastante buena.
Whisper está hecho por OpenAI, pero por una vez el proceso es fácil de instalar y hasta un simio con manos como yo ha sido capaz de instalar Whisper en su PC, equipado con una NVIDIA bastante modesta y transcribir vídeo con una 1660.
Algunas de las cosas a favor de Whisper son la capacidad de reconocer voz en múltiples idiomas, e incluso de traducir. Esto lo puede hacer bien gracias a las 680.000 horas de entrenamiento supervisado que ha recibido y que le convierten en una herramienta muy potente que nos va a permitir hacer cosas interesantes.
Comparativa entre KZbin Captions y Whisper: gist.github.com/danirod/434a2...
🔔 ¡Suscríbete ya! kzbin.info?sub_confi...
➕ Más tutoriales en: www.makigas.es
⭐ Programa de miembros: youtube.com/@makigas/join
📝 Foros de la comunidad: foro.makigas.es
💬 Servidor de Discord: discord.makigas.es

Пікірлер: 89
@makigas
@makigas 2 күн бұрын
Buenas, voy a pausar los comentarios de este vídeo porque no tengo tiempo de vigilar esto. Si no entiendes este vídeo, es que este vídeo no es para ti.
@Lunatuculito
@Lunatuculito Жыл бұрын
El video está buenísimo, explica claramente las cosas... el problema es que cuando sos un neófito de la tecnología con tu primer computadora personal en la vida no entendés nada (o sea, yo xD). Deberías buscar el modo de hacer este tipo de videos, donde enseñas herramientas útiles para gestionar trabajos de oficina, como este de transcribir audios a texto para gente que trabaja con guiones, periodistas, etc., mucho más accesibles al público común u.u Porfa
@trashplayz3004
@trashplayz3004 Жыл бұрын
muy util el video! sobre los modelos... se refiere al tamaño de capa de modelo, los mas pequeños suelen estar destinados a dispositivos moviles y los mas grandes... igual exigen de buena capacidad de procesado con gpu.
@El_Trastero_de_Demian
@El_Trastero_de_Demian Жыл бұрын
Me gustaría utilizarlo, pero soy bastante torpe en el tema de programación, IA y lenguaje computacional (tan poco es que tenga muy buen ingles), de echo pones muchos programas que se necesitan que no tengo ni idea donde se consiguen dando por sentado que tu audiencia entiende todo que dices XD Tal ves no sea tan complejo, pero no tengo ni idea de por donde empezar y la verdad, francamente me gustaría probarlo.
@z_Fertik
@z_Fertik 10 ай бұрын
Me pasa xD
@luisfelipevelezzapata7340
@luisfelipevelezzapata7340 Жыл бұрын
Lástima que no comienzas con lo más básico: dejar el enlace de descarga. Hasta ahí he llegado.
@klairm9097
@klairm9097 Ай бұрын
tu lo quieres todo mascado o que brooo espabila
@MrRobertosoto
@MrRobertosoto Жыл бұрын
Hola he probado y ahora estoy usando esta aplicacion sobre OpenSuse Linux, y es una maravilla. Gracias por compartir. Saludos.
@leoautorep2389
@leoautorep2389 Жыл бұрын
Hola amigo, me gustaría saber si podrías ayudarme a sacar los subtítulos de un vídeo de KZbin?
@leoautorep2389
@leoautorep2389 Жыл бұрын
Pensé que sería fácil pero por lo que veo hay algunos requisitos que necesita mi PC para poder lograrlo según este tutorial
@felipeger2688
@felipeger2688 9 ай бұрын
hola una pregunta donde instalas que programas es??? donde colocas comandos...
@claudiobalderrama1599
@claudiobalderrama1599 3 ай бұрын
Crees que sea posible el conseguir transcripción en tiempo real de alguna manera? por ejemplo en llamadas telefónicas en el buscador, agradecería mucho tu respuesta :)
@acaele
@acaele 4 ай бұрын
Hola, qué buen vídeo, ¿sabrás si esta herramienta te da los tiempos? (como para un SRT) Y en ese caso si te permite ponerle alguna limitación de número de palabras por línea o cosas así?
@makigas
@makigas 4 ай бұрын
Sí, puede exportar a SRT, aunque es todavía un poco limitado porque a menudo toma frases largas y si le pides que las haga más cortas para que quepan en un subtítulo empieza a partir mal las palabras, al menos en español
@lalitorams2735
@lalitorams2735 Жыл бұрын
Recomiendo cambiar la portada porque pensé que era un anuncio Excelente video Gracias
@InglesparaTodos07
@InglesparaTodos07 5 ай бұрын
hola buen video gracias tienee que ser una pc potente o cualquiera sirve
@damianferraro2070
@damianferraro2070 10 ай бұрын
Excelente video! Que tal funciona con varios interlocutores? Un meet del trabajo por ejemplo.
@makigas
@makigas 10 ай бұрын
Nunca lo he probado, ahora me da curiosidad, para mi whisper solo existo yo…
@theproclamer
@theproclamer Жыл бұрын
Chicho pense que picarias python jajajajajaja, le probe hace un tiempo esta herramienta y de verdad es una locura lo que hace buen video compi!
@makigas
@makigas Жыл бұрын
Python? Ew 😄
@emiliocamposok
@emiliocamposok Жыл бұрын
Muy buen aporte, pero como no soy programador, no entendí casi nada de los comandos y los paquetes de programas que utilizas para correr la instalación de Wishper. Si alguien me podria dar una mano en ese sentido se lo agradecería mucho. Gracias por compartir..
@3skrlata
@3skrlata Жыл бұрын
yo tampoco entendi nada, alguien podría ayudarnos para poder instalar fácilmente :c trate de instalar la otras cosas extras pero no puede
@makigas
@makigas Жыл бұрын
¡Buenas! Algunas aclaraciones extra que he omitido en el vídeo: * Me ha sorprendido que en muchas ocasiones, Whisper elimina interjecciones como "vale" o "sí". A decir verdad, me gusta, porque normalmente las quito de las transcripciones para no poner texto innecesario. * Me he fijado que a medida que va avanzando el vídeo, la transcripción de Whisper cada vez tiene menos comas y menos puntos. Me pregunto si es lo que la gente en los foros de Whisper llama "alucinaciones", o simplemente que la IA se cansa porque el output que genera para una frase depende de los outputs previamente generados. * Cuando subo una transcripción a KZbin suelo quitar los subtítulos generados por KZbin, pero en este caso a modo de benchmark he decidido dejarlos para que se pueda hacer una comparativa entre Whisper y KZbin. Además, os dejo el original, la versión revisada y el diff de la transcripción: gist.github.com/danirod/434a20a8153881ed5fecbdf3c5ff49bd
@user-rf7ss8df5l
@user-rf7ss8df5l 4 ай бұрын
Hola, gracias por el vídeo!😊 Podrías explicar cómo debo hacer para cambiar el idioma de español a inglés por favor 🙏. El audio que quiero transcribir está en inglés. Gracias!
@LUISMARTINEZ-dy9ks
@LUISMARTINEZ-dy9ks 4 күн бұрын
muy complicado de entender, ¿hay algo mas sencillo donde con solo subir un audio mp3 y que se traduzca online gratis en internet?
@andresariascapurro
@andresariascapurro Жыл бұрын
Gracias como siempre
@YusufSalahAdDin
@YusufSalahAdDin Жыл бұрын
Precisamente una amiga estudiante de medicina y nosotros con mi hermana estábamos buscando una herramienta para transcribir, cosa que sea más fácil traducir libros. Sin querer, aquí me sale una posible solución, gracias!!!
@luisanabolivar2805
@luisanabolivar2805 Жыл бұрын
También estudio medicina. Te funcionó?
@YusufSalahAdDin
@YusufSalahAdDin Жыл бұрын
@@luisanabolivar2805 aún no lo he puesto a prueba.
@fernandoavila6183
@fernandoavila6183 Жыл бұрын
@@YusufSalahAdDin avisen ;)
@jorgerenatosotoconcha9446
@jorgerenatosotoconcha9446 2 ай бұрын
Hola Whisper en donde lo has instalado? me refiero dentro de qué aplicación o sitio web has instalado Whisper? esa parte no entendí ´
@fabianmartinezn
@fabianmartinezn Жыл бұрын
Hola, excelente esto. Una pregunta, cual es la diferencia entre el servicio de pago de whipser de Open AI y este software open Source?
@makigas
@makigas Жыл бұрын
Ninguna por el momento, el software open source lo tienes que instalar tú pero luego lo puedes usar cuanto quieras (el lo que chupa en electricidad la GPU durante el rato que estás traduciendo no es gratis, tho), el servicio de pago pagas por no pasar por sufrir.
@singularmaiartmilifeispoli8555
@singularmaiartmilifeispoli8555 11 ай бұрын
Cuál es el link para usar whisper online o no se puede? Entre las apps de android en app store hay muchos, cuál es el verdadero?
@Mfernandezreina
@Mfernandezreina 3 ай бұрын
Hola, he probado la herramienta pero dice que es de pago. Es que estoy haciendo algo mal?
@renzochalco5526
@renzochalco5526 4 ай бұрын
No entiendo nada, no se como se instala cuda y que esta usando para instalarlo
@juannicolasbaquerocollante3960
@juannicolasbaquerocollante3960 9 ай бұрын
Hay muchas cosas que siento que das por hecho que todos conocemos y no es así, aclaraciones que deberías hacer, como lo de la ruta del archivo que queremos transcribir, que no sé de dónde obtenerla, si estás en CMD o dónde, el por qué te sale whisper workstation, qué es phyton... Etc, muchas cosas que no entiendo y seguro que la mayoría de personas que no sepan mucho de esto, tampoco.
@Dav1001
@Dav1001 4 ай бұрын
JAJAJA "cada quien lleva las crisis como quiere" un crack
@guillermourquijonajera2780
@guillermourquijonajera2780 11 ай бұрын
He escuchado que ocupas una tarjeta NVIDIA 1600, yo ocupo una GeoForce 210, se puede instalar tambien o tengo que cambiar mi tarjeta grafica?? Saludos excelente video.
@makigas
@makigas 11 ай бұрын
Ya no tengo mi vieja 210 para probarlo con datos (me dio la vida esa gráfica cuando no había para más...), pero mi impresión es que o no la pillará por ser muy vieja y codificará por CPU, o la pillará pero será en rendimiento como si no la tuviese. Whisper puede codificar por CPU, pero el tiempo que toma codificar algo es mucho mayor, en mis pruebas con CPU tardaba como una hora en codificar un par de minutos de audio.
@guillermourquijonajera2780
@guillermourquijonajera2780 11 ай бұрын
@@makigas muchas gracias, me sirvio mucho tu apoyo!!
@raupulus
@raupulus Жыл бұрын
Grande Dani! Hiciste que ampliara mi lista de cosas por probar :D
@makigas
@makigas Жыл бұрын
Esa lista está para ampliarla y ampliarla 😄
@FranciscoFF0
@FranciscoFF0 Жыл бұрын
Que tal, sera que se pueda hacer una web donde le pases el video de youtube sin importar el idioma del video y te retorne el audio del video ya traducido o el mismo video ya con el audio sobrepuesto, seria usar whisper para pasar el audio a texto y traducirlo, que otra herramienta se podría usar para pasar de texto a audio
@makigas
@makigas Жыл бұрын
Bua, ese sería ya el siguiente paso, un generador de voces de código abierto para doblar vídeos a otro idioma
@SylvStone
@SylvStone 3 ай бұрын
OK, al memos tienes un Nvidea. Vine aquí buscando info sobre cómo funcionaría whisper en un entorno CPU con tarjeta gráfica Intel.
@seqay3065
@seqay3065 27 күн бұрын
Si quisiera desplegar whisper, donde debería desplegarlo?
@Roberto_Ronconi
@Roberto_Ronconi Ай бұрын
Me gustaría mucho poder instalar y usar Whisper. Pero en este video lo explica muy mal y demasiado rápido... no se entiende.
@braaddcueva
@braaddcueva Жыл бұрын
Un abrazo, si quisiera convertir un audio ingles a espanol y luego a la inversa, seria posible?
@makigas
@makigas Жыл бұрын
Con Whisper no se genera voz, habría que usar una IA capaz de eso. Hay una libre llamada Bark, pero no la he probado todavía.
@camilodelrio9904
@camilodelrio9904 Жыл бұрын
una pregunta, este programa puede transcribir clases magistrales de "12" horas? muchas gracias
@makigas
@makigas Жыл бұрын
En la versión cloud me parece que sí; en la versión que instalas no tengo constancia de que haya, le he pasado archivos grandes y se los ha comido; si da error por archivo muy grande, como un requisito para whisper es ffmpeg siempre se puede trocear en cachos de 1 hora o 30 minutos si fallase
@oscarhernandez311
@oscarhernandez311 Жыл бұрын
Lo probé con un audio pequeño y se tardó un buen rato, y entonces me di cuenta aue no estaba utilizando mi tarjeta gráfica sólo el procesador, por qué será? Ahora, el resultado es muy bueno con pocos errores
@makigas
@makigas Жыл бұрын
Quizá que falte instalar cuda… aunque solo es una suposición, lo mismo ya lo tienes
@segundocastro9281
@segundocastro9281 2 ай бұрын
nO ES GRATUITA .. solo es de prueba gratuita....luegi se debe pagar...
@monopedorro4444
@monopedorro4444 Жыл бұрын
Buenas, genial el vídeo. Pero no sé si es solo a mí pero no puedo ver los subtítulos. Me encantan tus contenidos.
@makigas
@makigas Жыл бұрын
Que raro... igual es un tema de cache de KZbin, a mi sí me salen. (Me encanta tu nombre de usuario, por cierto xD)
@monopedorro4444
@monopedorro4444 Жыл бұрын
@@makigas jaja, gracias. Puede ser porque lo estoy viendo desde el cel
@makigas
@makigas Жыл бұрын
Ah, puede ser, no lo he probado en móvil. En teoría he dejado las dos pistas; "Español" con la que ha generado Whisper, y "Español (generado automáticamente)" con lo que ha entendido KZbin.
@avicap17
@avicap17 11 ай бұрын
SE PUEDE traducir UN VIDEO DE INGLES A ESPAÑOL es lo que me interesa y nadie aclara y nadie da un ejemplo !!!!
@gely256
@gely256 5 ай бұрын
Te echo un cable : El programa gratis Subtitle Edit, lo hace. Usa whisper, pero ya lo instala él solo todo, sin romper la cabeza. Además traduce a cualquier idioma. Es muy fácil de usar, pero como no te lo puedo explicar así, te recomiendo que busques "subtítulos automáticos con subtitle edit", donde te lo explican paso a paso. Verás qué fácil. Espero haberte ayudado.
@majonukac
@majonukac 8 ай бұрын
Whisper está usando mi cpu en lugar de mi gpu, tengo una GTX 1660ti, ya instalé CUDA y Pythorch
@juanelbolaelbola
@juanelbolaelbola Ай бұрын
tenemos una extensión de crome...... HARPA AI | lo trascribe todo y un montón de cosas mas, una locura esta conectada a gpt y Gemini cono ia, no hay que instalar nada.
@neosebas8272
@neosebas8272 Жыл бұрын
La barrera de los subtitulos la destruye totalmente para la gente que se le complica entender el ingles hablado 🎉
@rhkuhz
@rhkuhz Жыл бұрын
Me gustaría un día cuando tenga tiempo usar esta herramienta para automatizar traducir un video de youtube, a ver como queda. Te descargas el video, transcribes, traduces, generas la voz con un tts y juntas el nuevo audio con el video. Para tutoriales me vendría muy bien porque no se me da muy bien entender el inglés hablado 😅
@makigas
@makigas Жыл бұрын
De hecho cuando KZbin active de forma global lo de permitir subir vídeos con audio en múltiples idiomas, esto podría ser un puntazo para ayudar a creadores a hacer su contenido más accesible
@rhkuhz
@rhkuhz Жыл бұрын
@@makigas Buaaah es que eso es ideal y ya existen formas de automatizar todo el proceso, pero está confirmado esa feature?
@makigas
@makigas Жыл бұрын
​@@rhkuhz Confirmado, está en QA. Se supone que lo iban a activar de forma global "en breve", pero ya sabemos lo que significa en breve con KZbin. Lo tiene MrBeast (si te vas a un vídeo suyo, al abrir la configuración puedes elegir el idioma del audio) y algunos canales importantes de la India también lo tienen ya, que es el país en el que KZbin suele probar todos sus experimentos
@rhkuhz
@rhkuhz Жыл бұрын
@@makigas joder que alegría, gracias por la info, un saludo ;)
@julionicolastroncosomedina4933
@julionicolastroncosomedina4933 2 ай бұрын
Está muy bueno el material, pero no es tan práctico para quienes no dominamos del todo la tecnología de computadoras.
@SakuraHougetsu28
@SakuraHougetsu28 Жыл бұрын
¿no hay una manera de usarlo en una laptop sin grafica, me refiero, alguna forma online o donde no gastes recursos de pc (que no tienes), más bien, una alternativa para pobres xd?
@makigas
@makigas Жыл бұрын
La respuesta que OpenAI querría dar es "suscribiéndote a su servicio online y pagando una cuota". Sin una gráfica buena no queda otra que codificar por procesador, no es imposible pero claramente es un proceso que va a tardar unas horas (una noche tal vez), aparte de consumir más energía toda la noche.
@zxyx453
@zxyx453 Жыл бұрын
Qué lío por qué no es intuitivo!?
@ivanfrias9203
@ivanfrias9203 8 ай бұрын
para gestion las dependencias tambien puedes instalar anaconda y ahcer entornos virtuales aun mas facil
@InnovaSytrus
@InnovaSytrus Жыл бұрын
yo pensando que podia usarlo hasta que hablo de GPU y yo uso una integrada :(
@makigas
@makigas Жыл бұрын
Uf. A ver, hay un fallback a CPU, podrías intentarlo, pero va a tardar muchísimo más. Puedes probar con un audio de medio minuto y juzgar el resultado.
@CSF230
@CSF230 Жыл бұрын
Lamentable que no es 100% confiable ,sobre todo para sacar audio de videos de anime no lo recomiendo mucho sobre todo con los anime antiguos ,el audio de las nuevas series no hay mucho problema,igual tienen que revisar el texto porque no queda sincronizado los subtitulos
@makigas
@makigas Жыл бұрын
Sí, este bug lo vienen arrastrando, los subtítulos con tiempo son un poco inútiles, la sincronización no va fina.
@Jkayami
@Jkayami Жыл бұрын
Quizás para ello se podría dividir el video, si a los 16 minutos por ejemplo los subtítulos pierden coherencia, dividir el trabajo en ese tiempo y después unir todo
@NicoleDeniseLopez
@NicoleDeniseLopez 11 ай бұрын
Tengo que comprarme una computadora
@davidsolano2423
@davidsolano2423 6 ай бұрын
La palabra tecnica es escupir? espero no se te vomite esa app XD
@jamal4014
@jamal4014 2 күн бұрын
No entendí ni vergas
@user-ly5ev6hx8e
@user-ly5ev6hx8e 10 ай бұрын
La ia arruinado los trabajos, como siempre,
@menillasotelo
@menillasotelo 5 ай бұрын
jajaaja es que tu pronunciación en ingles es mala
@APOLKIS
@APOLKIS 2 ай бұрын
No me encuentra el archivo enm ninguna ruta que le ponga, que puedo hacer.
@EliGarcia.
@EliGarcia. Ай бұрын
He realizado las instalación desde pip, siguiendo los pasos que indica el repositorio. Pense que seria un proceso mas ligero, pero me consume 4gb de ram y un 40% del cpu en un core i7 4790, corriendo a 4ghz. No se si me han troleado pero en pantalla veo las siguientes lineas [00:00.000 --> 00:07.400] amigos. Bueno, buenos días. [00:30.000 --> 00:49.200] Jóvenes, ustedes dicen [00:49.200 --> 01:02.940] Price [01:02.960 --> 01:07.140] en los ninotos. [01:19.200 --> 01:21.200] Gracias por ver el vídeo. [01:21.200 --> 01:23.200] Suscríbete al canal. [01:49.200 --> 01:51.200] Suscríbete al canal. [02:19.200 --> 02:21.200] Suscríbete al canal. [02:50.200 --> 02:52.200] Suscríbete al canal. [02:52.200 --> 02:53.200] Suscríbete al canal. [03:19.200 --> 03:21.200] Suscríbete al canal. [03:49.200 --> 03:51.200] Suscríbete al canal. [04:19.200 --> 04:21.200] Suscríbete al canal. [04:49.200 --> 04:51.200] Suscríbete al canal. ¿Suscríbete al canal? ¿Es normal?
@makigas
@makigas Ай бұрын
¿Que repita una frase? Me está pasando también desde hace un tiempo en algunos vídeos y aún no se por qué. Me tranquiliza ver que no solo lo hace conmigo.
@EliGarcia.
@EliGarcia. Ай бұрын
@@makigas Como bien comentas, me tranquilza saber que no es un caso particular, probablemente sea un bug recurrente y pronto salga alguna actualización. Para agregar contexto, estoy usando una maquina con Fedora 40 y el bug aparecio con el modelo medium. He decidio probar con el modelo tiny, pero la semantica es algo rara aunque el proceso como era de esperarse muy veloz en comparación con medium. Saludos 👋 y gracias
Can AI code Flappy Bird? Watch ChatGPT try
7:26
candlesan
Рет қаралды 9 МЛН
A pack of chips with a surprise 🤣😍❤️ #demariki
00:14
Demariki
Рет қаралды 46 МЛН
FOOLED THE GUARD🤢
00:54
INO
Рет қаралды 61 МЛН
Is ChatGPT Plus Worth It? A Review after Extensive Use..
20:47
How I'd Learn AI (If I Had to Start Over)
15:04
Thu Vu data analytics
Рет қаралды 710 М.
Most Popular Computer Operating Systems 1985 - 2024
7:35
Captain Gizmo
Рет қаралды 1,3 МЛН
23 AI Tools You Won't Believe are Free
25:19
Futurepedia
Рет қаралды 1,9 МЛН
ChatGPT решает проблему вагонетки
7:13
Убежище Валл-И
Рет қаралды 923 М.
🔥Идеальный чехол для iPhone! 📱 #apple #iphone
0:36
Не шарю!
Рет қаралды 1,3 МЛН
Asus  VivoBook Винда за 8 часов!
1:00
Sergey Delaisy
Рет қаралды 791 М.
#miniphone
0:16
Miniphone
Рет қаралды 3,4 МЛН