Usando Whisper, la IA gratuita y libre de OpenAI para transcribir audio

  Рет қаралды 97,934

makigas: aprende programación

makigas: aprende programación

Күн бұрын

Whisper es un programa de código abierto (!!) que mediante inteligencia artificial es capaz de tomar un archivo de audio (o de vídeo, si es capaz de extraerlo por su cuenta) y transformarlo a texto, interpretando lo que se dice y con una tasa de precisión que, aunque no es del 100%, es bastante buena.
Whisper está hecho por OpenAI, pero por una vez el proceso es fácil de instalar y hasta un simio con manos como yo ha sido capaz de instalar Whisper en su PC, equipado con una NVIDIA bastante modesta y transcribir vídeo con una 1660.
Algunas de las cosas a favor de Whisper son la capacidad de reconocer voz en múltiples idiomas, e incluso de traducir. Esto lo puede hacer bien gracias a las 680.000 horas de entrenamiento supervisado que ha recibido y que le convierten en una herramienta muy potente que nos va a permitir hacer cosas interesantes.
Comparativa entre KZbin Captions y Whisper: gist.github.co...
🔔 ¡Suscríbete ya! kzbin.info...
➕ Más tutoriales en: www.makigas.es
⭐ Programa de miembros: youtube.com/@m...
📝 Foros de la comunidad: foro.makigas.es
💬 Servidor de Discord: discord.makiga...

Пікірлер: 89
@makigas
@makigas 3 ай бұрын
Buenas, voy a pausar los comentarios de este vídeo porque no tengo tiempo de vigilar esto. Si no entiendes este vídeo, es que este vídeo no es para ti.
@Lunatuculito
@Lunatuculito Жыл бұрын
El video está buenísimo, explica claramente las cosas... el problema es que cuando sos un neófito de la tecnología con tu primer computadora personal en la vida no entendés nada (o sea, yo xD). Deberías buscar el modo de hacer este tipo de videos, donde enseñas herramientas útiles para gestionar trabajos de oficina, como este de transcribir audios a texto para gente que trabaja con guiones, periodistas, etc., mucho más accesibles al público común u.u Porfa
@El_Trastero_de_Demian
@El_Trastero_de_Demian Жыл бұрын
Me gustaría utilizarlo, pero soy bastante torpe en el tema de programación, IA y lenguaje computacional (tan poco es que tenga muy buen ingles), de echo pones muchos programas que se necesitan que no tengo ni idea donde se consiguen dando por sentado que tu audiencia entiende todo que dices XD Tal ves no sea tan complejo, pero no tengo ni idea de por donde empezar y la verdad, francamente me gustaría probarlo.
@z_Fertik
@z_Fertik Жыл бұрын
Me pasa xD
@emiliocamposok
@emiliocamposok Жыл бұрын
Muy buen aporte, pero como no soy programador, no entendí casi nada de los comandos y los paquetes de programas que utilizas para correr la instalación de Wishper. Si alguien me podria dar una mano en ese sentido se lo agradecería mucho. Gracias por compartir..
@3skrlata
@3skrlata Жыл бұрын
yo tampoco entendi nada, alguien podría ayudarnos para poder instalar fácilmente :c trate de instalar la otras cosas extras pero no puede
@luisfelipevelezzapata7340
@luisfelipevelezzapata7340 Жыл бұрын
Lástima que no comienzas con lo más básico: dejar el enlace de descarga. Hasta ahí he llegado.
@klairm9097
@klairm9097 4 ай бұрын
tu lo quieres todo mascado o que brooo espabila
@lalitorams2735
@lalitorams2735 Жыл бұрын
Recomiendo cambiar la portada porque pensé que era un anuncio Excelente video Gracias
@MrRobertosoto
@MrRobertosoto Жыл бұрын
Hola he probado y ahora estoy usando esta aplicacion sobre OpenSuse Linux, y es una maravilla. Gracias por compartir. Saludos.
@leoautorep2389
@leoautorep2389 Жыл бұрын
Hola amigo, me gustaría saber si podrías ayudarme a sacar los subtítulos de un vídeo de KZbin?
@leoautorep2389
@leoautorep2389 Жыл бұрын
Pensé que sería fácil pero por lo que veo hay algunos requisitos que necesita mi PC para poder lograrlo según este tutorial
@trashplayz3004
@trashplayz3004 Жыл бұрын
muy util el video! sobre los modelos... se refiere al tamaño de capa de modelo, los mas pequeños suelen estar destinados a dispositivos moviles y los mas grandes... igual exigen de buena capacidad de procesado con gpu.
@YusufSalahAdDin
@YusufSalahAdDin Жыл бұрын
Precisamente una amiga estudiante de medicina y nosotros con mi hermana estábamos buscando una herramienta para transcribir, cosa que sea más fácil traducir libros. Sin querer, aquí me sale una posible solución, gracias!!!
@luisanabolivar2805
@luisanabolivar2805 Жыл бұрын
También estudio medicina. Te funcionó?
@YusufSalahAdDin
@YusufSalahAdDin Жыл бұрын
@@luisanabolivar2805 aún no lo he puesto a prueba.
@fernandoavila6183
@fernandoavila6183 Жыл бұрын
@@YusufSalahAdDin avisen ;)
@Dav1001
@Dav1001 8 ай бұрын
JAJAJA "cada quien lleva las crisis como quiere" un crack
@acaele
@acaele 7 ай бұрын
Hola, qué buen vídeo, ¿sabrás si esta herramienta te da los tiempos? (como para un SRT) Y en ese caso si te permite ponerle alguna limitación de número de palabras por línea o cosas así?
@makigas
@makigas 7 ай бұрын
Sí, puede exportar a SRT, aunque es todavía un poco limitado porque a menudo toma frases largas y si le pides que las haga más cortas para que quepan en un subtítulo empieza a partir mal las palabras, al menos en español
@theproclamer
@theproclamer Жыл бұрын
Chicho pense que picarias python jajajajajaja, le probe hace un tiempo esta herramienta y de verdad es una locura lo que hace buen video compi!
@makigas
@makigas Жыл бұрын
Python? Ew 😄
@renzochalco5526
@renzochalco5526 7 ай бұрын
No entiendo nada, no se como se instala cuda y que esta usando para instalarlo
@juannicolasbaquerocollante3960
@juannicolasbaquerocollante3960 Жыл бұрын
Hay muchas cosas que siento que das por hecho que todos conocemos y no es así, aclaraciones que deberías hacer, como lo de la ruta del archivo que queremos transcribir, que no sé de dónde obtenerla, si estás en CMD o dónde, el por qué te sale whisper workstation, qué es phyton... Etc, muchas cosas que no entiendo y seguro que la mayoría de personas que no sepan mucho de esto, tampoco.
@jorgerenatosotoconcha9446
@jorgerenatosotoconcha9446 5 ай бұрын
Hola Whisper en donde lo has instalado? me refiero dentro de qué aplicación o sitio web has instalado Whisper? esa parte no entendí ´
@seqay3065
@seqay3065 4 ай бұрын
Si quisiera desplegar whisper, donde debería desplegarlo?
@segundocastro9281
@segundocastro9281 5 ай бұрын
nO ES GRATUITA .. solo es de prueba gratuita....luegi se debe pagar...
@claudiobalderrama1599
@claudiobalderrama1599 6 ай бұрын
Crees que sea posible el conseguir transcripción en tiempo real de alguna manera? por ejemplo en llamadas telefónicas en el buscador, agradecería mucho tu respuesta :)
@braaddcueva
@braaddcueva Жыл бұрын
Un abrazo, si quisiera convertir un audio ingles a espanol y luego a la inversa, seria posible?
@makigas
@makigas Жыл бұрын
Con Whisper no se genera voz, habría que usar una IA capaz de eso. Hay una libre llamada Bark, pero no la he probado todavía.
@LUISMARTINEZ-dy9ks
@LUISMARTINEZ-dy9ks 3 ай бұрын
muy complicado de entender, ¿hay algo mas sencillo donde con solo subir un audio mp3 y que se traduzca online gratis en internet?
@zxyx453
@zxyx453 Жыл бұрын
Qué lío por qué no es intuitivo!?
@JhoselinCoanqui-p7h
@JhoselinCoanqui-p7h 7 ай бұрын
Hola, gracias por el vídeo!😊 Podrías explicar cómo debo hacer para cambiar el idioma de español a inglés por favor 🙏. El audio que quiero transcribir está en inglés. Gracias!
@SylvStone
@SylvStone 7 ай бұрын
OK, al memos tienes un Nvidea. Vine aquí buscando info sobre cómo funcionaría whisper en un entorno CPU con tarjeta gráfica Intel.
@damianferraro2070
@damianferraro2070 Жыл бұрын
Excelente video! Que tal funciona con varios interlocutores? Un meet del trabajo por ejemplo.
@makigas
@makigas Жыл бұрын
Nunca lo he probado, ahora me da curiosidad, para mi whisper solo existo yo…
@Mfernandezreina
@Mfernandezreina 6 ай бұрын
Hola, he probado la herramienta pero dice que es de pago. Es que estoy haciendo algo mal?
@guillermourquijonajera2780
@guillermourquijonajera2780 Жыл бұрын
He escuchado que ocupas una tarjeta NVIDIA 1600, yo ocupo una GeoForce 210, se puede instalar tambien o tengo que cambiar mi tarjeta grafica?? Saludos excelente video.
@makigas
@makigas Жыл бұрын
Ya no tengo mi vieja 210 para probarlo con datos (me dio la vida esa gráfica cuando no había para más...), pero mi impresión es que o no la pillará por ser muy vieja y codificará por CPU, o la pillará pero será en rendimiento como si no la tuviese. Whisper puede codificar por CPU, pero el tiempo que toma codificar algo es mucho mayor, en mis pruebas con CPU tardaba como una hora en codificar un par de minutos de audio.
@guillermourquijonajera2780
@guillermourquijonajera2780 Жыл бұрын
@@makigas muchas gracias, me sirvio mucho tu apoyo!!
@andresariascapurro
@andresariascapurro Жыл бұрын
Gracias como siempre
@InglesparaTodos07
@InglesparaTodos07 8 ай бұрын
hola buen video gracias tienee que ser una pc potente o cualquiera sirve
@felipeger2688
@felipeger2688 Жыл бұрын
hola una pregunta donde instalas que programas es??? donde colocas comandos...
@APOLKIS
@APOLKIS 5 ай бұрын
No me encuentra el archivo enm ninguna ruta que le ponga, que puedo hacer.
@avicap17
@avicap17 Жыл бұрын
SE PUEDE traducir UN VIDEO DE INGLES A ESPAÑOL es lo que me interesa y nadie aclara y nadie da un ejemplo !!!!
@gely256
@gely256 9 ай бұрын
Te echo un cable : El programa gratis Subtitle Edit, lo hace. Usa whisper, pero ya lo instala él solo todo, sin romper la cabeza. Además traduce a cualquier idioma. Es muy fácil de usar, pero como no te lo puedo explicar así, te recomiendo que busques "subtítulos automáticos con subtitle edit", donde te lo explican paso a paso. Verás qué fácil. Espero haberte ayudado.
@fabianmartinezn
@fabianmartinezn Жыл бұрын
Hola, excelente esto. Una pregunta, cual es la diferencia entre el servicio de pago de whipser de Open AI y este software open Source?
@makigas
@makigas Жыл бұрын
Ninguna por el momento, el software open source lo tienes que instalar tú pero luego lo puedes usar cuanto quieras (el lo que chupa en electricidad la GPU durante el rato que estás traduciendo no es gratis, tho), el servicio de pago pagas por no pasar por sufrir.
@oscarhernandez311
@oscarhernandez311 Жыл бұрын
Lo probé con un audio pequeño y se tardó un buen rato, y entonces me di cuenta aue no estaba utilizando mi tarjeta gráfica sólo el procesador, por qué será? Ahora, el resultado es muy bueno con pocos errores
@makigas
@makigas Жыл бұрын
Quizá que falte instalar cuda… aunque solo es una suposición, lo mismo ya lo tienes
@camilodelrio9904
@camilodelrio9904 Жыл бұрын
una pregunta, este programa puede transcribir clases magistrales de "12" horas? muchas gracias
@makigas
@makigas Жыл бұрын
En la versión cloud me parece que sí; en la versión que instalas no tengo constancia de que haya, le he pasado archivos grandes y se los ha comido; si da error por archivo muy grande, como un requisito para whisper es ffmpeg siempre se puede trocear en cachos de 1 hora o 30 minutos si fallase
@makigas
@makigas Жыл бұрын
¡Buenas! Algunas aclaraciones extra que he omitido en el vídeo: * Me ha sorprendido que en muchas ocasiones, Whisper elimina interjecciones como "vale" o "sí". A decir verdad, me gusta, porque normalmente las quito de las transcripciones para no poner texto innecesario. * Me he fijado que a medida que va avanzando el vídeo, la transcripción de Whisper cada vez tiene menos comas y menos puntos. Me pregunto si es lo que la gente en los foros de Whisper llama "alucinaciones", o simplemente que la IA se cansa porque el output que genera para una frase depende de los outputs previamente generados. * Cuando subo una transcripción a KZbin suelo quitar los subtítulos generados por KZbin, pero en este caso a modo de benchmark he decidido dejarlos para que se pueda hacer una comparativa entre Whisper y KZbin. Además, os dejo el original, la versión revisada y el diff de la transcripción: gist.github.com/danirod/434a20a8153881ed5fecbdf3c5ff49bd
@singularmaiartmilifeispoli8555
@singularmaiartmilifeispoli8555 Жыл бұрын
Cuál es el link para usar whisper online o no se puede? Entre las apps de android en app store hay muchos, cuál es el verdadero?
@raupulus
@raupulus Жыл бұрын
Grande Dani! Hiciste que ampliara mi lista de cosas por probar :D
@makigas
@makigas Жыл бұрын
Esa lista está para ampliarla y ampliarla 😄
@Roberto_Ronconi
@Roberto_Ronconi 4 ай бұрын
Me gustaría mucho poder instalar y usar Whisper. Pero en este video lo explica muy mal y demasiado rápido... no se entiende.
@majonukac
@majonukac Жыл бұрын
Whisper está usando mi cpu en lugar de mi gpu, tengo una GTX 1660ti, ya instalé CUDA y Pythorch
@neosebas8272
@neosebas8272 Жыл бұрын
La barrera de los subtitulos la destruye totalmente para la gente que se le complica entender el ingles hablado 🎉
@FranciscoFF0
@FranciscoFF0 Жыл бұрын
Que tal, sera que se pueda hacer una web donde le pases el video de youtube sin importar el idioma del video y te retorne el audio del video ya traducido o el mismo video ya con el audio sobrepuesto, seria usar whisper para pasar el audio a texto y traducirlo, que otra herramienta se podría usar para pasar de texto a audio
@makigas
@makigas Жыл бұрын
Bua, ese sería ya el siguiente paso, un generador de voces de código abierto para doblar vídeos a otro idioma
@juanelbolaelbola
@juanelbolaelbola 4 ай бұрын
tenemos una extensión de crome...... HARPA AI | lo trascribe todo y un montón de cosas mas, una locura esta conectada a gpt y Gemini cono ia, no hay que instalar nada.
@ivanfrias9203
@ivanfrias9203 11 ай бұрын
para gestion las dependencias tambien puedes instalar anaconda y ahcer entornos virtuales aun mas facil
@monopedorro4444
@monopedorro4444 Жыл бұрын
Buenas, genial el vídeo. Pero no sé si es solo a mí pero no puedo ver los subtítulos. Me encantan tus contenidos.
@makigas
@makigas Жыл бұрын
Que raro... igual es un tema de cache de KZbin, a mi sí me salen. (Me encanta tu nombre de usuario, por cierto xD)
@monopedorro4444
@monopedorro4444 Жыл бұрын
@@makigas jaja, gracias. Puede ser porque lo estoy viendo desde el cel
@makigas
@makigas Жыл бұрын
Ah, puede ser, no lo he probado en móvil. En teoría he dejado las dos pistas; "Español" con la que ha generado Whisper, y "Español (generado automáticamente)" con lo que ha entendido KZbin.
@SakuraHougetsu28
@SakuraHougetsu28 Жыл бұрын
¿no hay una manera de usarlo en una laptop sin grafica, me refiero, alguna forma online o donde no gastes recursos de pc (que no tienes), más bien, una alternativa para pobres xd?
@makigas
@makigas Жыл бұрын
La respuesta que OpenAI querría dar es "suscribiéndote a su servicio online y pagando una cuota". Sin una gráfica buena no queda otra que codificar por procesador, no es imposible pero claramente es un proceso que va a tardar unas horas (una noche tal vez), aparte de consumir más energía toda la noche.
@julionicolastroncosomedina4933
@julionicolastroncosomedina4933 5 ай бұрын
Está muy bueno el material, pero no es tan práctico para quienes no dominamos del todo la tecnología de computadoras.
@rhkuhz
@rhkuhz Жыл бұрын
Me gustaría un día cuando tenga tiempo usar esta herramienta para automatizar traducir un video de youtube, a ver como queda. Te descargas el video, transcribes, traduces, generas la voz con un tts y juntas el nuevo audio con el video. Para tutoriales me vendría muy bien porque no se me da muy bien entender el inglés hablado 😅
@makigas
@makigas Жыл бұрын
De hecho cuando KZbin active de forma global lo de permitir subir vídeos con audio en múltiples idiomas, esto podría ser un puntazo para ayudar a creadores a hacer su contenido más accesible
@rhkuhz
@rhkuhz Жыл бұрын
@@makigas Buaaah es que eso es ideal y ya existen formas de automatizar todo el proceso, pero está confirmado esa feature?
@makigas
@makigas Жыл бұрын
​@@rhkuhz Confirmado, está en QA. Se supone que lo iban a activar de forma global "en breve", pero ya sabemos lo que significa en breve con KZbin. Lo tiene MrBeast (si te vas a un vídeo suyo, al abrir la configuración puedes elegir el idioma del audio) y algunos canales importantes de la India también lo tienen ya, que es el país en el que KZbin suele probar todos sus experimentos
@rhkuhz
@rhkuhz Жыл бұрын
@@makigas joder que alegría, gracias por la info, un saludo ;)
@InnovaSytrus
@InnovaSytrus Жыл бұрын
yo pensando que podia usarlo hasta que hablo de GPU y yo uso una integrada :(
@makigas
@makigas Жыл бұрын
Uf. A ver, hay un fallback a CPU, podrías intentarlo, pero va a tardar muchísimo más. Puedes probar con un audio de medio minuto y juzgar el resultado.
@CSF230
@CSF230 Жыл бұрын
Lamentable que no es 100% confiable ,sobre todo para sacar audio de videos de anime no lo recomiendo mucho sobre todo con los anime antiguos ,el audio de las nuevas series no hay mucho problema,igual tienen que revisar el texto porque no queda sincronizado los subtitulos
@makigas
@makigas Жыл бұрын
Sí, este bug lo vienen arrastrando, los subtítulos con tiempo son un poco inútiles, la sincronización no va fina.
@Jkayami
@Jkayami Жыл бұрын
Quizás para ello se podría dividir el video, si a los 16 minutos por ejemplo los subtítulos pierden coherencia, dividir el trabajo en ese tiempo y después unir todo
@Valen.Gonzalez.01
@Valen.Gonzalez.01 Жыл бұрын
Tengo que comprarme una computadora
@davidsolano2423
@davidsolano2423 9 ай бұрын
La palabra tecnica es escupir? espero no se te vomite esa app XD
@jamal4014
@jamal4014 3 ай бұрын
No entendí ni vergas
@menillasotelo
@menillasotelo 8 ай бұрын
jajaaja es que tu pronunciación en ingles es mala
@user-ly5ev6hx8e
@user-ly5ev6hx8e Жыл бұрын
La ia arruinado los trabajos, como siempre,
@EliGarcia.
@EliGarcia. 4 ай бұрын
He realizado las instalación desde pip, siguiendo los pasos que indica el repositorio. Pense que seria un proceso mas ligero, pero me consume 4gb de ram y un 40% del cpu en un core i7 4790, corriendo a 4ghz. No se si me han troleado pero en pantalla veo las siguientes lineas [00:00.000 --> 00:07.400] amigos. Bueno, buenos días. [00:30.000 --> 00:49.200] Jóvenes, ustedes dicen [00:49.200 --> 01:02.940] Price [01:02.960 --> 01:07.140] en los ninotos. [01:19.200 --> 01:21.200] Gracias por ver el vídeo. [01:21.200 --> 01:23.200] Suscríbete al canal. [01:49.200 --> 01:51.200] Suscríbete al canal. [02:19.200 --> 02:21.200] Suscríbete al canal. [02:50.200 --> 02:52.200] Suscríbete al canal. [02:52.200 --> 02:53.200] Suscríbete al canal. [03:19.200 --> 03:21.200] Suscríbete al canal. [03:49.200 --> 03:51.200] Suscríbete al canal. [04:19.200 --> 04:21.200] Suscríbete al canal. [04:49.200 --> 04:51.200] Suscríbete al canal. ¿Suscríbete al canal? ¿Es normal?
@makigas
@makigas 4 ай бұрын
¿Que repita una frase? Me está pasando también desde hace un tiempo en algunos vídeos y aún no se por qué. Me tranquiliza ver que no solo lo hace conmigo.
@EliGarcia.
@EliGarcia. 4 ай бұрын
@@makigas Como bien comentas, me tranquilza saber que no es un caso particular, probablemente sea un bug recurrente y pronto salga alguna actualización. Para agregar contexto, estoy usando una maquina con Fedora 40 y el bug aparecio con el modelo medium. He decidio probar con el modelo tiny, pero la semantica es algo rara aunque el proceso como era de esperarse muy veloz en comparación con medium. Saludos 👋 y gracias
Arreglo en el backend para crear paginación
13:16
Luis West
Рет қаралды 330
OYUNCAK MİKROFON İLE TRAFİK LAMBASINI DEĞİŞTİRDİ 😱
00:17
Melih Taşçı
Рет қаралды 12 МЛН
Крутой фокус + секрет! #shorts
00:10
Роман Magic
Рет қаралды 13 МЛН
Variables de entorno en Linux
8:42
Code & More
Рет қаралды 62
Transforma ChatGPT en AutoGPT con un solo Mensaje
8:18
Academia IA Lab
Рет қаралды 210 М.
Máquina Active HackTheBox || Live de Twitch
2:07:21
Hacker piloto
Рет қаралды 123
I run untested, viewer-submitted code on my 500-LED christmas tree.
45:17
How to Install & Use Whisper AI Voice to Text
12:44
Kevin Stratvert
Рет қаралды 479 М.
Let's Create a Compiler (Pt.1)
1:11:03
Pixeled
Рет қаралды 520 М.
OAuth 2.0 and OpenID Connect (in plain English)
1:02:17
OktaDev
Рет қаралды 1,7 МЛН