O uso de vozes de inteligência artificial no treinamento auditivo: avanços, benefícios e limitações

Paciente idoso usando fones de ouvido durante treinamento auditivo em consultório, enquanto uma fonoaudióloga opera um computador ao fundo, em ambiente clínico moderno e organizado.

O treinamento auditivo é uma ferramenta essencial na prática clínica fonoaudiológica, especialmente na reabilitação de pacientes com dificuldades de percepção de fala. Nos últimos anos, o avanço das tecnologias de síntese de voz — impulsionado pela inteligência artificial (IA) — trouxe novas possibilidades para a criação de estímulos auditivos mais controlados, escaláveis e personalizados.

Mas afinal: usar vozes artificiais no treinamento auditivo é realmente eficaz? E quais são os limites dessa abordagem?

O que são vozes sintetizadas no contexto clínico?

As vozes sintetizadas são produzidas artificialmente a partir da manipulação de parâmetros acústicos, como frequência, intensidade e ruído. Isso permite criar estímulos com características específicas e controladas, algo difícil de alcançar com vozes humanas naturais.

Na prática clínica e em pesquisas, essas vozes são frequentemente utilizadas como modelos padronizados que ajudam o paciente (ou o profissional em treinamento) a desenvolver referências perceptivas mais estáveis.

Benefícios do uso de vozes de IA no treinamento auditivo

1. Maior controle e padronização dos estímulos

Um dos principais benefícios das vozes sintetizadas é a possibilidade de controle preciso das variáveis acústicas. Isso permite criar estímulos graduais e sistemáticos, fundamentais para o aprendizado auditivo.

Estudos mostram que esse controle favorece a confiabilidade das avaliações e do treinamento perceptivo-auditivo, reduzindo a subjetividade.

2. Melhora da consistência perceptiva

Pesquisas com treinamento auditivo utilizando estímulos sintetizados demonstraram melhora significativa na consistência das respostas dos avaliadores ao longo das sessões.

Por exemplo, um estudo experimental mostrou aumento progressivo da concordância intra-avaliador após sessões de treinamento com estímulos sintetizados, indicando aprendizado perceptivo.

3. Escalabilidade e acessibilidade

Com a IA, é possível gerar grandes volumes de estímulos rapidamente, com diferentes vozes, sotaques e níveis de dificuldade. Isso amplia o acesso ao treinamento auditivo, inclusive em plataformas digitais e teleatendimento.

4. Possibilidade de personalização

Sistemas baseados em IA permitem adaptar o nível de complexidade do estímulo ao desempenho do paciente, favorecendo abordagens mais individualizadas — um princípio-chave da neuroplasticidade.

Limitações e desafios

Apesar das vantagens, o uso de vozes artificiais ainda apresenta limitações importantes.

1. Naturalidade ainda imperfeita

Mesmo com os avanços recentes, vozes sintetizadas nem sempre reproduzem toda a complexidade da fala humana.

Estudos mostram que ouvintes frequentemente confundem vozes humanas e sintetizadas, com taxas de erro relevantes, o que indica que ainda existem diferenças perceptíveis importantes.

2. Generalização para o mundo real

Um dos principais questionamentos clínicos é: o treino com voz artificial transfere para a compreensão de fala natural?

Ainda não há consenso na literatura sobre qual tipo de estímulo (natural vs. sintetizado) é mais eficaz, nem sobre o melhor formato de treinamento auditivo.

3. Menor variabilidade

A fala humana real envolve variações complexas — emoção, prosódia, contexto, ruído — que nem sempre são totalmente reproduzidas por vozes artificiais. Isso pode limitar a aplicabilidade funcional do treinamento.

O que a ciência mostra até agora?

De forma geral, a literatura científica sugere que:

  • O uso de vozes sintetizadas é útil e eficaz como ferramenta complementar, especialmente para padronização e treinamento inicial.
  • Há evidências de melhora na consistência perceptiva e aprendizado auditivo com esses estímulos.
  • No entanto, não existe consenso sobre o melhor protocolo de treinamento, nem sobre a superioridade das vozes artificiais em relação às naturais.

Conclusão: devemos usar vozes de IA no treinamento auditivo?

Sim — mas com critério.

As vozes de inteligência artificial representam uma ferramenta poderosa, especialmente para:

  • treino inicial de habilidades auditivas
  • padronização de estímulos
  • programas digitais e escaláveis

Por outro lado, elas não devem substituir completamente a exposição à fala natural, que continua sendo essencial para a funcionalidade no dia a dia.

O melhor caminho, segundo as evidências atuais, é o uso combinado: integrar vozes sintetizadas e naturais dentro de um programa terapêutico bem estruturado.

Referências

AMERICAN SPEECH-LANGUAGE-HEARING ASSOCIATION. (Central) Auditory Processing Disorders. Rockville: ASHA, 2005.

KRAUS, Nina; WHITE-SCHWOCH, Travis. Unraveling the biology of auditory learning: a cognitive-sensorimotor-reward framework. Trends in Cognitive Sciences, v. 19, n. 11, p. 642–654, 2015.

LIN, Frank R. Hearing loss and cognition among older adults in the United States. The Journals of Gerontology: Series A, v. 66A, n. 10, p. 1131–1136, 2011.

MERZENICH, Michael M. et al. Cortical plasticity underlying perceptual, motor, and cognitive skill development: implications for neurorehabilitation. Cold Spring Harbor Symposia on Quantitative Biology, v. 69, p. 1–8, 2004.

SWEETOW, Robert W.; SABES, Emily H. The need for and development of an adaptive listening and communication enhancement (LACE™) program. Journal of the American Academy of Audiology, v. 17, n. 8, p. 538–558, 2006.

IEEE. Speech perception of synthetic versus natural speech. IEEE Transactions on Audio, Speech, and Language Processing, [S.l.], diversos números.

ACOUSTICAL SOCIETY OF AMERICA. Speech intelligibility and synthetic speech perception. The Journal of the Acoustical Society of America, [S.l.], diversos números.

SCIELO – SCIENTIFIC ELECTRONIC LIBRARY ONLINE. Base de dados científica. Disponível em: https://www.scielo.org. Acesso em: 9 abr. 2026.

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Treinamento auditivo com estímulos sintetizados e consistência perceptiva. Belo Horizonte: UFMG, [s.d.].

UNIVERSIDADE FEDERAL DE SÃO PAULO. Percepção de fala com estímulos naturais e sintetizados. São Paulo: UNIFESP, [s.d.].

BENGIO, Yoshua et al. Deep learning for speech synthesis. IEEE Signal Processing Magazine, v. 34, n. 6, p. 82–93, 2017.

GOOGLE. Tacotron: Towards end-to-end speech synthesis. Mountain View, 2017.

MICROSOFT. Neural text-to-speech: improving speech naturalness. Redmond, 2018.