De onde vem a voz utilizada na inteligência artificial?

Universidades brasileiras, entre elas a USP, estão desenvolvendo o primeiro banco de áudios na língua portuguesa brasileira

 14/07/2023 - Publicado há 1 ano
Por
O banco de áudios pode ter diferentes aplicações, como a construção ou melhoria de assistentes pessoais, como Alexa, ou para geração de legendas automáticas em  streamings de vídeos, ou mesmo para o ChatGPT – Imagem: Freepik

 

Logo da Rádio USP

Com tantas tecnologias para facilitar o dia a dia das pessoas, principalmente na acessibilidade nos mais diversos segmentos, pesquisadores do Centro de Inteligência Artificial da USP (C4AI) desenvolveram o primeiro banco de áudios em português brasileiro, o CORAA (Corpus of Annotated Áudios) ASR, direcionado ao reconhecimento e à síntese automática de falas espontâneas como entrevistas, conversas e declarações informais. 

O  professor Arnaldo Cândido Jr., pesquisador na área da Inteligência Artificial e Processamento de Língua Natural do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, explica que esse banco foi desenvolvido a partir de um pool de universidades que se uniram para chegar nessa grande base de áudios. Cândido Jr. explicou ainda que a base da pesquisa em inteligência artificial foram modelos internacionais, apesar de os pesquisadores serem todos brasileiros.

Pesquisa de vozes

Durante o trabalho de pesquisa desenvolvido no Centro de Inteligência Artificial da USP, em São Carlos, mais de 60 bolsistas estiveram envolvidos no projeto catalogando e analisando as vozes. As vozes utilizadas já existiam em bases de estudos preexistentes de linguística e foram adaptadas para o contexto de tarefas na computação, como a fala, por exemplo. 

Os áudios incluem falas do Museu da Pessoa, além de bases de áudios de  centros de estudos em outros Estados do Brasil. Por ser um banco com  áudios cedidos, o material ainda é usado apenas como base acadêmica, mas pode ser disponibilizado no futuro  por empresas no mercado de  trabalho que usam software livre, aqueles que não têm exploração comercial. 

Utilização

O banco de áudios pode ter diferentes aplicações, como a construção ou melhoria de assistentes pessoais, como Alexa, ou para geração de legendas automáticas em streamings de vídeos, ou mesmo para o ChatGPT. Além disso, o recurso também pode ser utilizado para a criação automática de atas de reuniões, como assistente de ditados e para a conversão de mensagens de voz em mensagens de texto dentro de aplicativos como o WhatsApp.

Cândido Jr. explica que bancos de áudios de outros países ainda têm uma grande  diferença em relação ao de português brasileiro (existe um banco em português europeu), principalmente quando a base é o inglês que tem muitos recursos.  Já idiomas menos falados têm baixo investimento. Por isso, um dos objetivos é fazer com que o português seja usado como base na pesquisa de fala em todo o mundo. O desafio agora é aumentar a base de áudios e buscar as emoções presentes na fala, especialmente na língua portuguesa. 


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.