Inteligência Artificial para GERAR ÁUDIOA a partir de TEXTO | Amazon ou Google?

Inteligência Artificial para GERAR ÁUDIOA a partir de TEXTO | Amazon ou Google? | IA na Prática #3

Рет қаралды 984

Күн бұрын

Qual o melhor serviço para gerar áudio a partir de texto? Tanto a Amazon quanto a Google oferecem serviços de "Text to Speech" em suas plataformas de serviços na nuvem - AWS e Google Cloud, respectivamente. Descubra qual dessas big techs tem um serviço mais adequado para o seu projeto neste vídeo.
Este é o terceiro vídeo da série Inteligência Artificial na Prática. No primeiro vídeo, a Kizzy ensinou a utilizar a API Whisper da OpenAI para transcrever o áudio de um vídeo do KZbin para texto. No segundo vídeo, a Kizzy demonstrou como utilizar a API gratuita da Google para fazer o processo inverso: gerar áudio a partir de texto. Apesar de ser bem interessante, o serviço gratuito deixa aquele tom "robotizado" na voz e talvez você esteja à procura de uma voz sintética que soe de forma mais natural. Pois bem, neste vídeo, a Kizzy vai além e te apresenta duas opções comerciais de geração de áudio a partir de textos: a Amazon Poly e a Google Cloud Text to Speech.
▶️ Confira a playlist IA na Prática: • Inteligência Artificia...
Ambos os serviços tem uma taxa de uso gratuita, que você pode utilizar para testá-los. No entanto, estes serviços exigem que você cadastre um cartão de crédito, o que pode ser uma barreira para algumas pessoas.
Para as vozes padrão do Amazon Polly, o nível gratuito inclui cinco milhões de caracteres por mês para solicitações de fala ou marcas de fala nos primeiros 12 meses, começando pela primeira solicitação de fala. Para as vozes neurais, o nível gratuito inclui cinco milhões de caracteres por mês para solicitações de fala ou marcas de fala nos primeiros doze meses, começando pela primeira solicitação de fala. Para as vozes em formato longo, o nível gratuito inclui 500 mil caracteres por mês para solicitações de fala ou marcas de fala nos primeiros doze meses, começando pela primeira solicitação de fala.
Já a Google oferece US $300 em créditos para clientes novos que desejem testar o serviço de text to speech e 60 minutos* por mês para transcrever e analisar áudios sem custos.
Background "VS": www.freepik.com/free-vector/v..." Image by starline on Freepik
▶️ Outros conteúdos que podem te interessar:
1. O que é rede neural artificial • O que é Rede Neural Ar...
2. Projetos Impressionantes de Ciência de Dados com os quais Você Deveria Aprender • 3 Projetos Impressiona...
3. Como EU faria para COMEÇAR na Programação em 2024 • Como EU faria para COM...
4. Inteligência Artificial para gerar Áudio a partir de Texto com Google Text to Speech API • Inteligência Artificia...
0:00 Introdução IA na Prática e geração de áudio
2:38 Como usar o Amazon Polly para gerar voz
5:40 Diferenças entre a voz padrão e a voz neural em inglês e português
8:13 Código em Python para transcrição de áudio
9:04 Como usar a Google Cloud para gerar voz
11:10 Comparação entre as vozes geradas na Amazon e na Google
12:27 Linguagem de Marcação de Síntese de Voz (SSML)
14:30 Limitações para textos muito longos
📚 Livro para estudar Bancos de Dados - amzn.to/3Hjjusc
📚 Livros recomendados de Data Science: amzn.to/2XZyxUr
📚 Livros de Algoritmos e Estruturas de Dados: amzn.to/3d5wK4m
SetUp - Equipamentos: amzn.to/37Cg3N2
🟣 Canal na Twitch para lives: / pgdinamica
🟦 Canal do Telegram para receber todos os vídeos: t.me/pgdinamica
🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no KZbin, considere nos apoiar se tornando membro do canal: kzbin.info...
✉️ E-mails:
- Propostas comerciais: pgdinamica@brunch.ag
- Demais assuntos: contato@programacaodinamica.com.br
👩🏾‍💻👨🏾‍💻 Confira mais conteúdo em nosso blog: / programacaodinamica
🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: bit.ly/pgsparkle (baixe o app e entre na comunidade)
TikTok: @pgdinamica
📸 Nos siga no Instagram: / pgdinamica
📸 @kizzy_terra @hallpaz
🐦 Nos siga no Twitter: / pgdinamica
🐦 @kizzy_terra @hallpaz
* Curta a Programação Dinâmica no facebook: pgdinamica
* Nosso repositório no Github: github.com/programacaodinamica
* Confira os artigos no Python Café: pythoncafe.com.br
Kizzy Terra é cientista de dados, professora e pesquisadora, doutoranda em tecnologias da inteligência e design digital. É graduada em Engenharia de Computação pelo Instituto Militar de Engenharia (IME) e mestre em Matemática Aplicada pela FGV-RJ. Trabalhou como analista de dados de utilidade pública na FGV-RJ e no IPEA e foi cientista de dados sênior na Cyberlabs onde atuou em projetos de transformação digital para grandes empresas brasileiras.

Пікірлер: 15

@welton26 2 ай бұрын

Tem como fazer um vídeo de como implementar o da Amazon no Wordpress com player de áudio para transformar o conteúdo da matéria de texto em áudio?

@dicasdourso-polar5087 2 ай бұрын

Irei iniciar o curso de ciência da computação, Gostei bastante da área de IA Especificamente machine learning eu conseguiria estagio na área ainda na faculdade ou e preciso de experiência e outra área como ciência de dados, engenharia de software e etc?

@pgdinamica 2 ай бұрын

Hoje em dia, há ofertas de estágio, sim.

@user-xr3lj2bg7d 2 ай бұрын

Fala sobre o elevenlabs

@pgdinamica 2 ай бұрын

Obrigada pela sugestão!

@romeniaishiyama7159 2 ай бұрын

Parabéns! Obrigada por compartilhar!

@pgdinamica 2 ай бұрын

Obrigada por assistir 😉

@LucasMateus-hk9zf 2 ай бұрын

Eu realmente fiquei impressionado com a dublagem do elevenlabs, teste sua voz dublado no inglês nos vídeos subjacentes que o contexto for plausível

@pgdinamica Ай бұрын

Boa, vou testar!

@felipevaldes7679 2 ай бұрын

Com base na transcrição do vídeo, aqui está um resumo das principais informações: - Este é o terceiro vídeo de uma série sobre inteligência artificial na prática no canal Programação Dinâmica. - Nos vídeos anteriores, foram utilizados modelos de IA gratuitos para transcrição de áudio para texto e síntese de texto para áudio. - Neste vídeo, você compara os serviços pagos de síntese de voz da Amazon (Amazon Polly) e do Google (Google Text-to-Speech) para gerar áudios mais realistas a partir de textos. - Você detalha como configurar e usar esses serviços nas plataformas AWS e Google Cloud, destacando as diferenças de qualidade e naturalidade entre as vozes padrão e neurais. - Na sua opinião, o Amazon Polly obteve vozes mais realistas e naturais, especialmente em inglês, em comparação com o Google Text-to-Speech. - Você menciona a possibilidade de usar a linguagem SSML para fazer ajustes na pronúncia e adição de pausas nos áudios gerados. - Por fim, comenta sobre os custos envolvidos, como a necessidade de cartão de crédito e os limites de caracteres antes de precisar armazenar os áudios no Amazon S3, incorrendo em custos adicionais. - Você pede sugestões aos espectadores de outros tópicos de IA para abordar na prática no canal. Esse é um ótimo resumo detalhado comparando esses dois serviços comerciais de síntese de voz usando IA. Me avise se precisa de mais algum esclarecimento!

@LuizHenrique-qr3lt 2 ай бұрын

Oi Kizzy, muito obrigado pelos videos do canal, sou cientista de dados há 2 anos e grande parte do meu aprendizado foi com o video de vocês. Agora estou buscando mais conhecimento, queria tirar uma dúvida sobre temas de mestrado/pós para nossa área. Estou pensando em inferencia causal para um mestrado ou cloud computing como pós. Mexo muito com textos e com a AWS no meu dia a dia. Existe mais alguns temas que vocês acham interessantes para ciencia de dados em 2024? Obrigado!!

@pgdinamica 2 ай бұрын

Que legal Luiz! Nos fizemos um vídeo recentemente sobre temas de pesquisa em inteligência artificial para mestrado e doutorado, chegou a ver? O link é este aqui: Áreas Promissoras para Mestrado e Doutorado em Inteligência Artificial | Diário de Pesquisa #26 kzbin.info/www/bejne/nZrNgH2wbtuAfNU Seja qual for a sua escolha, desejamos muito sucesso 🙌🏾

@LuizHenrique-qr3lt 2 ай бұрын

@@pgdinamica perfeito Kizzy muito obrigado!! Acabei de assistir, deu uma boa luz!!