Parte 2: Creando un asistente virtual personalizado.

Рет қаралды 13,152

Күн бұрын

Пікірлер: 68

@charlesblack7989 Жыл бұрын

Uff perfecto. Tengo el mio a medias y es practicamente lo mismo. Uso Jetson nano. Me va de lujo porque la union hace la fuerza, así que cuando pueda os paso toda la info. Lo ultimo que hice fue que se conectara a un smartphone con telegram y obtuviera la info de internet a traves del telefono. La Jetson pregunta al smartphone a traves de archivos escritos y este los lee y pregunta a google, la respuesta la de vuelve de igual manera. Bueno, ya os contaré. Saludos y fuerza al proyecto!!!

@MrRompetecho Жыл бұрын

Muy buenas, una pregunta, como tienes configurado el Jetson nano va bien con Whisper y usando modelos similares? O se queda corto por su RAM reducida (entre otras cosas) al modelo superior?

@alextuza7166 2 ай бұрын

Has un vídeo, suena interesante. Saludos

@laravindelpixel873 Жыл бұрын

El proyecto es flipante y la comunidad que has formado alrededor de este es increíble, gran trabajo!!!

@AMPTech Жыл бұрын

Muchas gracias!

@mew6941 Жыл бұрын

Meta también acaba de liberar un poderoso modelo de segmentación de objetos que se podria usar local, para cosas tipo "ordenador, donde dejé las llaves?" -"están sobre la mesa en la habitación".

@carlosandresurreasamboni Жыл бұрын

La tienes clara Alex, felicitaciones

@alex-acunha-aguilera Жыл бұрын

Primero que todo felicitarte por la gran iniciativa!!! se aprende mucho y permite resolver dudas de aplicación de distintas tecnologías (la maravilla de la comunidad) En relación a funcionalidades, lo principal como asistente es que cumpla el rol de asistir con almacenar información y posterior organización, así que creo que es impresindible las listas de tareas, listas de super, listas de ideas, notas, etc ... mejor si se puede conectar por API para dejar en un registro para acceder desde cualquier lugar. Esto sumado a la entrega de información y combinación con IoT son (creo yo) el eje de una máquina que te asista. Vi que casi todo lo tienes en por hacer y varias ya avanzadas. Combinado con las cámaras puede ser colocar un interfaz para enviarle un mensaje por 2G o red y hacer acciones de domótica, que creo para un etapa inicial escapan un poco pero a futuro. Quizás igual poder colocar sensores como los llamados fin de carrera u otro similar para detectar cuando una puerta está cerrada y en la noche o cuando sales te pueda chequear si está todo cerrado, o que incluso con un motor PaP se pueda realizar la acción. O quizás con las cortinas para que se abran en las mañanas jajaajaja Un gran abrazo y muchas gracias por el gran contenido ! 😁😁

@AMPTech Жыл бұрын

Hola Tatan, Muy buenas ideas, el tema de IoT va a ser muy importante, considero que tenemos que empezar a descentralizar el procesamiento de redes neuronales y empezar a correr modelos en los dispositivos que estan capturando los datos (aunque sean modelos mas especializados). La idea de las cortinas es un proyecto que he querido hacer desde hace un par de años, solo que no he tenido el tiempo para hacerlo. Y no creo que sea muy complicado la verdad, al menos el mecanismo, sensor y actuador no. Ya cuando intentas meter todo en un software es cuando empiezan a complicarse las cosas jaja

@Mecatronilab Жыл бұрын

Recomiendo que directamente vayas por usar una red neuronal para reconocer las palabras claves, ya pase por ahí y la red neuronal es la mejor solución incluso puede ser escalable para implementar nuevos comandos. Mientras mantienes la escucha activa en un hilo, tienes la red neuronal en otro hilo. Así es mas similar a como se comporta el cerebro humano.

@guillermovillamayor3415 Жыл бұрын

Lo que yo hice es mandar los archivos WAV con una superposiciòn de unos 2 segundos. Asi si te corta una palabra, esta aparece en el otro frame. Funciona razonablemente bien. Pero mi idea es reconocer unas pocas palabras (comandos) y cargarlo en forma distribuida en varias ESP32 de forma tal que pueda pone un mòdulo por ejemplo en la caja de luz de la cocina y que reconozca el comando de activaciòn (por ejemplo computadora o casa o siri o alexa o nujau baidu) y despuès el comando que tiene que ejecutar. El reconocimiento lo hago con una red convolucional muy liviano (algo asi como reconocer una imagen pero la imagen la saco del archivo de audio) y todo esto funciona con el delay de 10 o 15 segundos que arda en grabarse cada frame. Usè como base el còdigo que està en la documentaciòn de Tensorflow y despuès lo pasè aTF Lite. Saludos.

@AMPTech Жыл бұрын

Eso es algo que quiero probar después, descentralizar el procesamiento para que estén lo mas cerca al "edge" posible. Todo el campo de Tiny ML me parece super prometedor

@king_lupus Жыл бұрын

Sería bastante útil en traducciones en tiempo real en videollamadas, como una función. Es decir, que implemente subtítulos en el idioma del receptor en la imagen del emisor cuando este hablando. Por cierto, excelente proyecto, espero con ansias el siguiente video!, saludos.

@AMPTech Жыл бұрын

Muy buena idea, no se me habia ocurrido, pero es algo que puede ser bastante util! Saludos

@sgarciamu Жыл бұрын

No sé si en los comentarios ya lo han dicho, pero no lo he visto creo que una gran funcionalidad podría ser hacer un reconocimiento de las personas según la voz creo que es interesante para un sitio donde existe más de una persona hablando y que pudiera llegar a reconocer la voz de uno u otro generando ficheros personalizados para cada persona. Me refiero a que guarde la información Tasquita, pero con un tac indicando qué persona es la que ha dicho qué

@AMPTech Жыл бұрын

Buena idea, ya tengo un modelo que hace eso. Lo que tendre que revisar es como lo podriamos integrar con whisper. Saludos!

@LocalGhost_8080 Жыл бұрын

que fregon!

@carlosdantenicolasdelafuen1293 Жыл бұрын

Gracias 👋👋👋👍

@CyberIngeniero Жыл бұрын

Tremendo proyecto!! Esperare ansioso el próximo video! Te dejo una pregunta, cual sería una alternativa viable a la Jetson Orin en relación al hardware? Saludos!

@AMPTech Жыл бұрын

Para lo que llevamos hasta el momento, creo que cualquier computadora puede correrlo. Aunque un GPU si aceleraria mucho la velocidad de inferencias, una computadora o laptop lo podria correr sin mucho problema, aunque tal vez un poquito mas lento.

@jprcdev Жыл бұрын

no se python pero lo que voy a implementar es la idea que te di hace mucho tiempo en el primer video la capacidad de gestionar los servidores remotos, con conexion a una api al server y demas lo hare en spring boot seguro ese api y vere como lanzar las request desde python

@alvarogonzalez0 Жыл бұрын

Estaría genial que lo podamos hacer app

@alex_pnf Жыл бұрын

Por cierto muy buen video y excelente idea. Me gustaría aportar código pero no tengo conocimientos jjaja.

@jhenrygv281 Жыл бұрын

Hola felicitaciones, excelente contenido. Qué tal si lo agregas un gps y este que este enviando datos al AI, así te de contenido como cuantos km has caminado, lugares que visitarte, etc. todo referente a gps y pq no algunos otros sensores también. Bendiciones!!

@didimoescobar2247 Жыл бұрын

Gran video y foco en este tipo de modelos.... !!!!, deseo preguntar que distro de linux estas usando para el proyecto ??

@joseleonardosanchezvasquez1514 Жыл бұрын

Deberías unir el primer video a la lista de reproducción

@AMPTech Жыл бұрын

No lo habia notado! Ya lo hice. Gracias por avisarme.

@andresbuitrago5408 Жыл бұрын

Super este proyecto una pregunta como puedo ejecutar el tema de traducción en vivo y transcripción desde google colab

@tadzukoi7296 Жыл бұрын

Hola podrías Mostrar cómo se podría agregar un sistema de reconocimiento de voz similar al de Elsa speak

@diegohurtado8881 Жыл бұрын

Yo hare un proyecto parecido pero para controlar un brazo robotico como extra, bueno mi idea es pareciada a usar gpt-3, en mi caso planeo usar bloom que es una alternativa opensource que puedo correr localmente, el tiempo que tarde en generar texto seria el mayor problema. Ademas primero quiero hacer que clasifique que tipo de actividad quiero hacer, es decir si quiero que mueva el brazo robotico, revisara lo que le dije y si lo que le dije es relacionado a mover el brazo robotico, dara un 1 por ejemplo o si quiero que tome nota de algo generara un 2 y asi, de esta manera solo tendria que programar cada funcion. Aun es una idea incompleta pero medio funciona en mi cabeza jaja

@wilsondesoul 2 ай бұрын

Me encanta todo esto y me inspira pero como empiezo desde cero me desespera no entender lo que dice en algunos casos. Alguna recomendacion o curso que me recomienden?

@gianluquedesimone9660 Жыл бұрын

Tengo una duda quiza de principiante en el tema: ¿Cómo se maneja el almacenamiento en este caso? Siempre estaras guardando todo lo que dices y haces entiendo que en algun punto deberia llenarse de los archivos wav que guardas. En ese caso los desplazarias borrando los mas viejos o hay algun otro método?

@AMPTech Жыл бұрын

Por el momento no estoy almacenando ningun wav, solo el transcript que genera. Pero se podrían hacer varias cosas, por ejemplo mandar archivos a algun servicio como google drive. Otra opcion podria ser mandarlo a un NAS, el cual tiene la ventaja de mantener todo local, pero pues uno tiene que comprar los discos duros y demas infraestructura.

@jorgeespana482 Жыл бұрын

Hola! Me parece un proyecto excelente! Y la idea de colaborar me emociona, será posible correr el proyecto en Windows con tarjeta gráfica Nvidia?

@AMPTech Жыл бұрын

Si debería correr por docker.

@dnlzen1 Жыл бұрын

Hola! Cuanto cuesta trabajar con whisper. En lo que es texto, hay un costo x token al usar la api. Lo pregunto porque si es grabacion continua el input podria ser muy caro. O no?

@AMPTech Жыл бұрын

Esta es una version que corre local. No tiene costo alguno, si lo usas desde el API de OpenAI ahi es donde ya tiene un costo

@colombiaturismo3744 Ай бұрын

y que pasaria si lo hago lo mismo con un asistente de open ai. podria confiarle toda mi biografia

@joseleonardosanchezvasquez1514 Жыл бұрын

Oye esta muy bueno todo, pero quiero preguntarte algo, si whisper trascribe algo en coreano por ejemplo le puedo decir que lo traduzca al español o solo al ingles, se que traduce muy bien al ingles.

@AMPTech Жыл бұрын

Por el momento solo puede hacerlo al inglés. No se si tienen planes para hacerlo funcionar con mas idiomas.

@alex_pnf Жыл бұрын

crea una implementación con homeassistant

@sasac.r7819 7 ай бұрын

Se que ya es muy tarde, pero me gustaría que al darle un pdf, aprenda lo que tiene escrito y comience a poner en practica lo aprendido

@Au-jc2ew Жыл бұрын

Que tal esta funcionaria la placa Khadas edge2 para este proyecto? Tiene un tamaño muy contenido, y sobre todo paro proyectos embarcados, puede ser muy interesante, pero no sé que tal rendimiento tendrá.

@AMPTech Жыл бұрын

No he tenido oportunidad de usarla, por lo que veo es un concepto entre la raspberry pi y la jetson nano. Imagino que podría llegarlo a correr, pero como no tiene un GPU NVIDIA, puede que haya algunos problemas de compatibilidad al momento de intentar procesar las redes neuronales desde la tarjeta grafica. Voy a echarle un vistazo y si me animo a comprar una puedo hacer un video entrando un poco mas a detalle.

@Au-jc2ew Жыл бұрын

Muchas gracias ¡¡ @@AMPTech Mi idea, y el motivo de buscar placas de este tipo, pequeñas, es que pretendo empotrarla en un vehículo, como asistente que me permita gestionar la domótica de casa, desde el coche. Sería algo así como una versión reducida de tu proyecto. Actualmente, la domótica de casa, la gestiono en remoto desde el móvil, me permite realizar cosas como abrí la puerta para recibir paquetes, poner el lavaplatos o la lavadora , atender eventos de cualquier tipo que la domótica pueda generar, mi casa funciona desde hace 2 años con placas solares, y esto implica una supervisión adicional, para poder aprovechar correctamente las horas de sol. El caso es que es muy corriente que durarte la jornada acceda en barias ocasiones al sistema domótico, y en muchas ocasiones, esto sucede mientras conduzco. Aún hay cosas que no tengo completamente definidas, como el sistema de alimentación para la placa, que permita arrancar con el vehículo y entrar en reposo con la parada del motor .. Añadir algunas funcionalidades más , como gps, que pueden mejorar procesos de automatización, o como funcionara el asistente, si recibo una llamada desde la puerta de la calle, mientras hablo con el mensajero por el móvil puedo verlo en las cámaras , pero no quisiera que el tb escucharas las ordenas del asistente... esto lo tengo que protocolizar aún. Actualmente, cuando llaman al interfono, salta una grabación mientras contesto la llamada, esto lo estoy haciendo con una centralita soft VoIp la casa me llama al móvil cuando alguien llama a la puerta de manera que puede hablar desde el «interfono» con la persona que está en la puerta, y después puedo abrir y cerrar la puerta.. Incluso llamar yo al interfono, si por alguna causa se corta la conexión, todo esto está empotrado en nodered y se visualizan las cámaras de la entrada al tiempo que se habla, etc. Pero..... no lo puedo hacer mientras conduzco ... Esto es lo que intento... refinar con un asistente ¡¡

@HernanOtta Жыл бұрын

le estuve preguntando a chat gpt y me dijo que el script esmuy basico , donde puedo encontrar scripts con funcionalidades avanzadas para mi asistente?

@nexgen6305 Жыл бұрын

y si le integras un algoritmo de autoconciencia para que se autoidentifique asi misma y cuando le hables dirigiendote a ella te responda, por ejemplo mirando a la camara, y diciendo "Name" puedes encender la luz o que le digas "oye podrias ayudarme"

@AMPTech Жыл бұрын

Buena aportación. Alguien en la comunidad me comento que si volteo a ver una cámara, que sepa que me estoy dirigiendo al asistente. Pero únicamente con la voz no sabría como hacerlo. Tengo que sentarme a pensar que podría ser para que sepa que tipo de "habla" es general y cual es dirigida específicamente al asistente. En una de esas y algo como un clasificador de frases podría ser un buen acercamiento. Saludos!

@D3rekOficial Жыл бұрын

cuando estará la parte 3?

@AMPTech Жыл бұрын

Es el proximo video que sale esta semana!

@socratesedgaralbinosanti-jq1rc Жыл бұрын

Quiero aprender a programar, me gustaría saber más sobre esto. Se me ha sido algo tedioso pero me gusta desde mucho tiempo eh querido realizar algo así para mi. Alguien que me ayude porque si me cuesta algo entender, pues me gusta analizar para que funciona cada renglón de un código o porque debo poner eso y otra directivas. Se oye bien pero si necesito aprender mas...aunque sea de cero no importa. Gracias.

@hermez2208 Жыл бұрын

No se si ya me este volando la cabeza, pero si algunas de las camaras detectan tu refrigerador y ven que esta vacio o falta por comprar algo, que te lo recuerden o te hagan una lista Creo que alguien ya dijo esto mas abajo, pero estaria buenazo que cuando te despiertes te salude y te diga algo de tus pendientes o rutinas y que cuando te duermas apague todo o parecido Tambien no hay que olvidar la parte de seguridad

@hermez2208 Жыл бұрын

y que pasaria si escuchas una cancion en español y quieres hablarle al asistente?

@hermez2208 Жыл бұрын

Y si en algun momento dejas tu casa sola, que sea capaz de reconocer un intruso? xD (esto seria despues del mvp)

@AMPTech Жыл бұрын

Muy buen punto, eso no lo he hecho ahorita. Pero hay modelos que ayudan a detectar quien dice que. Entonces podría procesar unicamente lo que diga yo.

@AMPTech Жыл бұрын

Justo estoy armando una funcionalidad similar y la voy a conectar con un video sobre los embeddings de openai

@scrhall Жыл бұрын

Cuando tenga tiempo me gustaría ver como de fácil es integrarlo con Node Red, solo necesitaría que enviara las transcripciones a node red, y desde node red ya integraria con home assistant o cualquier otra cosa

@AMPTech Жыл бұрын

Esta muy interesante este camino! Si lo logras avisame o haz alguna aportación el repo. Saludos

@SantiagoTrebucq Жыл бұрын

Que bueno Alex. Yo dejo mi comentario para que el algoritmo de KZbin siempre me muestre tu video y no que suponga que lo vi pero no me es relevante...

@AMPTech Жыл бұрын

Muchas gracias Santiago! A veces este algoritmo de KZbin se despista un poco jaja

@HernanOtta Жыл бұрын

necesito un asistente , para algunas tareas especiales en algunos programas que tengo en la pc y que el codigo sea inteligente y educable , la verdad que hace tiempo que quiero empezar un proyecto , y no encuentro ayuda , aunquesea algun lugar donde compartan script , la idea mia era hacer uno en dialowflow pero lo veo engorroso , ni siquiera puedo empezarlo , ayuda please , luego puedo aportar de lo mio al canal si me asisten

@alejandro8943 Жыл бұрын

me gustaria correr ese proyecto en mi pc pero mi gpu es de amd :(

@AMPTech Жыл бұрын

Puedes correrlo. Whisper no requiere obligatoriamente GPU. Asi Que puede correr en tu cpu sin tema. Tal vez el contenedor de docker es lo que no corre (pues es para correr con cuda) pero puedes hacer la instalación de todas las dependencias aparte. Actualizaré la documentación en los próximos días para que se pueda hacer sin docker.