Hume lança o modelo de conversão de texto em fala Octave, que gera vozes de IA emotivas e ajustáveis sob demanda com base em suas instruções

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais
A startup Hume AI, de Nova York , surgiu do anonimato há dois anos e, desde então, levantou milhões em financiamento com base em sua tecnologia que cria vozes emotivas de IA para uso em aplicativos empresariais.
Hoje, ele está levando suas ofertas um passo adiante com um novo modelo de linguagem e fala amplo chamado "mecanismo de texto e voz omnicompatível", ou Octave , projetado para produzir fala realista e emocionalmente matizada para uso em diferentes formas de conteúdo, de audiolivros a diálogos pré-gravados de personagens de videogame e filmes/TV/vídeos.
Hume afirma que o Octave é o primeiro sistema de conversão de texto em fala alimentado por um grande modelo de linguagem (LLM) treinado não apenas em texto, mas em tokens de fala e emoção, permitindo que ele entenda palavras em contexto e ajuste o tom, o ritmo e a cadência adequadamente — e que o usuário pode ajustar no nível da frase com prompts de texto.
“Estamos lançando o primeiro LLM para conversão de texto em fala, um modelo que entende palavras em contexto, prevendo as emoções, o ritmo, a cadência e a ênfase corretos, fazendo com que a fala soe mais humana do que nunca”, disse Alan Cowen, cofundador e CEO da Hume AI, em uma entrevista por videochamada com a VentureBeat.
As capacidades do Octave vão além da geração básica de voz. Ele pode interpretar traços de caráter e estilo de um script sozinho, ajustando inflexões vocais para combinar com emoções implícitas. Um comentário sarcástico será falado sarcasticamente, uma frase de pânico soará urgente e um segredo sussurrado será abafado — tudo sem precisar de direção explícita.
Além disso, se o usuário não gostar da voz gerada ou quiser ajustá-la, ele pode fazer isso de forma granular por meio de linguagem natural, simplesmente digitando uma instrução de texto para o Octave, como "mais feliz, mais triste, mais frustrado, mais irritado, mais sarcástico, mais sincero", etc.
“Você pode descrever um personagem — como um camponês medieval sarcástico — e o modelo criará instantaneamente essa voz, ajustando emoções como raiva, tristeza ou felicidade com base em suas instruções”, acrescentou Cowen.
Embora a versão atual se concentre na fala em inglês, o Octave também oferece suporte ao espanhol e espera-se que expanda seus recursos de idioma em um futuro próximo.
Feito sob medida para criação de conteúdoO Octave é voltado para criadores de conteúdo e produção de mídia, oferecendo aplicações em audiolivros, podcasts, personagens de videogame e locuções de vídeo.
“Este novo modelo foi projetado para conversão de texto em fala offline — perfeito para audiolivros, podcasts, narrações em vídeo e personagens de videogame — onde os criadores precisam de vozes realistas e específicas para cada personagem”, explicou Cowen.
No entanto, o usuário deve acessá-lo pelo site do Hume, seja na página Projetos ou por uma interface de programação de aplicativos (API). O componente “offline” se refere ao fato de que este modelo é projetado para produzir arquivos de áudio discretos que podem ser adicionados a projetos como vídeos ou audiolivros. Ele não foi projetado para manter conversas em tempo real, embora isso possa ser permitido, teoricamente, canalizando consultas de texto para o site.
A API do Hume permite que os desenvolvedores façam até 50 solicitações do novo modelo Octave por minuto, com um comprimento máximo de texto de 5.000 caracteres e descrições limitadas a 1.000 caracteres. Cada solicitação pode gerar até cinco saídas, e os formatos de áudio suportados incluem MP3, WAV e PCM.
A série anterior de modelos EVI da Hume permite interações de streaming, em tempo real e de ida e volta, e continua disponível e continuará a ser desenvolvida.
O Hume AI oferece um modelo de preços baseado em assinatura com níveis que vão desde uma opção gratuita até os planos Creator, Creator Pro e Enterprise.
Aqui está uma análise concisa das ofertas:
- Grátis (US$ 0/mês) – 10.000 caracteres de texto para fala por mês (~10 minutos) com vozes personalizadas ilimitadas.
- Starter (US$ 3/mês) – 30.000 caracteres (~30 minutos) mais suporte para até 20 projetos.
- Criador (US$ 10/mês) – 100.000 caracteres (~100 minutos), preço baseado no uso para caracteres extras (US$ 0,20/1.000) e suporte para até 1.000 projetos.
- Pro (US$ 50/mês) – 500.000 caracteres (~500 minutos), preço mais baixo com base no uso (US$ 0,15/1.000) e suporte para até 3.000 projetos.
- Escala (US$ 150/mês) – 2.000.000 de caracteres (~2.000 minutos), preços com base no uso ainda mais reduzidos (US$ 0,13/1.000) e suporte para até 10.000 projetos.
- Negócios (US$ 900/mês) – 10.000.000 de caracteres (~10.000 minutos), preços ainda mais baixos com base no uso (US$ 0,10/1.000) e suporte para até 20.000 projetos.
- Enterprise (preço personalizado) – Uso ilimitado, termos legais personalizados, garantias de segurança, preços em massa com descontos significativos e suporte prioritário.
No geral, Hume enfatizou que o preço do Octave TTS é cerca de metade do custo da startup concorrente de criação de voz por IA, ElevenLabs , mostrando a competição cada vez mais intensa no espaço de conversão de texto em fala.
Além disso, a Hume AI conduziu um estudo de comparação cega com 180 avaliadores humanos para comparar o Octave com o ElevenLabs. Os resultados mostraram que o Octave foi preferido em termos de qualidade de áudio (71,6% dos testes), naturalidade (51,7% dos testes) e quão bem a fala correspondia às descrições da voz desejada (57,7% dos testes), em 120 prompts diversos.

Para avaliar melhor seu desempenho, a Hume AI também lançou o Expressive TTS Arena, um benchmark público projetado para testar o quão bem os modelos de IA lidam com discursos mais longos e expressivos, uma área que os benchmarks TTS anteriores ignoraram amplamente.
Ao contrário dos sistemas tradicionais de conversão de texto em fala que dependem de conjuntos de dados de fala limitados, o Octave TTS é construído em um LLM treinado em dezenas de trilhões de tokens de linguagem.
“Os modelos tradicionais de conversão de texto em fala são treinados em dados de fala limitados, mas o nosso é construído em um LLM treinado em dezenas de trilhões de tokens, permitindo que ele raciocine, pense e infira emoções a partir do texto”, disse Cowen.
O modelo foi treinado usando milhões de horas de dados de fala pública e longa e conjuntos de dados proprietários da Hume AI de novas vozes gravadas pelos participantes da pesquisa.
“Coletamos dados de pessoas gravando a si mesmas por meio de webcams, reagindo naturalmente aos vídeos, contando histórias e conversando com outras pessoas, incluindo amigos e familiares, para capturar uma ampla gama de expressões emocionais”, disse Cowen.
Esse treinamento extensivo permite que o modelo deduza o contexto emocional e siga instruções detalhadas, criando vozes que correspondem a descrições e atributos específicos do personagem.
O modelo, disponível hoje por meio da plataforma e API da Hume AI, oferece controle emocional em nível de frase, com alguma flexibilidade dentro das frases.
“A modulação de voz funciona no nível da frase, mas você também pode ajustar partes de uma frase, instruindo o modelo a transmitir emoções matizadas, como uma leve frustração misturada com humor ou exasperação”, observou Cowen. O modelo também considera o contexto além das frases individuais. “Ao contrário dos modelos tradicionais que processam o texto palavra por palavra, nosso modelo considera parágrafos inteiros, capturando o contexto para entregar uma fala mais natural e emocionalmente precisa”, explicou ele.
O Octave TTS mantém vozes de personagens consistentes em conteúdo longo.
“Com nossa plataforma, você pode gerar vozes únicas para cada personagem em um audiolivro — como um orc de meia-idade — e manter a voz desse personagem ao longo da história”, disse Cowen.
Esse recurso é suportado pela página “Projetos” do Hume AI, que lida com conteúdo longo, como audiolivros, dividindo o texto automaticamente, mas preservando a consistência dos caracteres e o contexto entre os capítulos.
Hume tem proteções técnicas incorporadas em seu site e API que proíbem a criação de vozes infantis realistas e imitações de indivíduos específicos, mas, fora isso, ele está aberto para uso em uma ampla gama de conteúdos e assuntos, incluindo cenas potencialmente perigosas para o trabalho, como aquelas em romances populares.
“Damos liberdade aos desenvolvedores, permitindo conteúdo em uma ampla gama de experiências humanas, embora restrinjamos a criação de vozes infantis realistas e imitações de indivíduos específicos”, explicou Cowen.
Além disso, Cowen disse que a empresa poderia ajustar essas proteções para clientes específicos mediante solicitação, como uma editora de livros infantis que deseja criar vozes para audiolivros infantis.
Além disso, a Hume AI está trabalhando em um futuro recurso de Clonagem de Voz, que permitirá aos usuários replicar uma voz a partir de apenas cinco segundos de áudio. A empresa está desenvolvendo salvaguardas para garantir o uso ético antes de lançar o recurso publicamente.
Com sua combinação de consciência contextual, expressão emocional e personalização de personagens, o Octave TTS visa fornecer aos criadores de conteúdo mais controle e flexibilidade, entregando vozes que soem realistas e emocionalmente envolventes.
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins informativos do VB aqui .
Ocorreu um erro.

venturebeat