Evolução da inteligência artificial cria vídeos cada vez mais reais

Fernando Osório avalia que o processo de criação de vídeos pela IA vem passando por um refinamento, mas que o maior problema está na disseminação de informações falsas

 12/03/2026 - Publicado há 3 meses
Por
Foto: Freepik
Logo da Rádio USP

Algumas inteligências artificiais generativas oferecem o recurso de criação de vídeos. Os vídeos podem ser originados por meio de textos, imagens e outros recursos visuais. Dependendo do comando dado e do recurso base, o produto final da IA possui características distintas. Os vídeos feitos pela inteligência artificial estão ficando cada vez mais semelhantes à realidade, o que torna difícil a distinção sem ajuda de artifícios. O professor Fernando Osório, do Instituto de Ciências Matemáticas e de Computação de São Carlos da USP e pesquisador ligado ao Centro de Inteligência Artificial da USP, avalia que o processo de criação de vídeos pela IA vem passando por um refinamento.

Osório explica mais sobre os processos de criação pela IA. “Você dá um prompt textual. A partir desse texto que descreve a imagem, ele gera. Como ele conhece certos elementos, ele vai tentar verificar, ao gerar a imagem, se aquele elemento está bem representado lá dentro. E ele vai refinando. Existem algumas técnicas, que são as redes adversárias, em que, justamente, você tenta, de certa forma, fazer uma ‘competição’. Tem um adversário que tenta, justamente, fazer com que você se aprimore, porque ele tenta achar a sua falha. Então, existe um processo que é uma espécie de refinamento, usando técnicas de deep learning.” A deep learning é um uma área da inteligência artificial que consiste na utilização de redes neurais artificiais que implicam na aprendizagem da máquina.

Fernando Osório – Foto: ICMC-USP

Com a evolução da IA, além do refinamento e novas técnicas de criação, os tipos de recursos criados também se diversificaram. “Depois começou a se fazer prompt de texto e saída em imagem. E, agora, entrada nas IAs do tipo multimodal, porque elas têm trabalhado com texto, imagem e, algumas vezes, até com áudio, você tem essa capacidade de entrar imagem e sair imagem ou vídeo.” Prompt é o comando dado para a IA generativa para que ela forneça respostas.

O professor explica que, quando a geração de produtos audiovisuais é pelo texto, a IA cria com base em um banco de dados. O problema está em como esse banco de dados é alimentado e quais estereótipos tende a repetir. “A diferença básica é que, quando você só dá texto, você imagina que você deixa muito mais abertura para a criação da própria inteligência artificial. Ela vai te propor uma sugestão, porque você diz ‘gere uma imagem de uma pessoa andando em uma rua’. É muito genérico, que pessoa, que cor de pele, que tipo de cabelo etc. Ela vai usar o modelo que ela tem como padrão.”

Os perigos e como remediar

A disseminação de informações falsas é o dano mais emergente da utilização da IA para fins ilimitados, como ressalta o pesquisador. “Na imagem também houve geração de muitos fakes, e que enganam claramente as pessoas. Quando a gente chega no vídeo, esse recurso é o mais complexo de tudo, porque o vídeo, se ele é muito bem feito, a pessoa tende a incorporar aquilo como uma realidade. Eu já vi gente que sabe que é falso, mas quase que cria uma ‘memória de vida’ de um momento que nunca existiu. Isso é muito delicado. É um fake muito forte, muito preciso. E essa evolução foi muito grande, porque, no início, eram geradas imagens que eram facilmente detectáveis.” A IA errava partes importantes, que facilitam a identificação. Porém, hoje, ela está mais próxima da realidade. “Ela errava o número de dedos, ela gerava coisas completamente não realísticas, não adequadas do ponto de vista da realidade. Mas, em uma questão de um a três anos, isso evoluiu tanto que hoje é muito mais difícil detectar erros nas imagens. Você detecta normalmente um erro de um comportamento físico inadequado, quer dizer, uma pessoa que caminha sobre a água, que flutua, coisas desse gênero que são impossíveis. Mas as pessoas até acreditam.”

Osório conclui que a limitação é fundamental para a utilização consciente e segura desse recurso. “Você tem a possibilidade de usar filtros. Hoje em dia existe a capacidade daquela evolução que você faz na geração, você vai verificando a qualidade. O filtro sabe o que está dentro da imagem ou do vídeo. E ele pode, justamente, bloquear.”

A IA é capaz de entender o que está sendo criado, mas, se esse recurso será disponibilizado, depende dos criadores dela, ou seja, das big techs. “Bloquear uma pessoa famosa, bloquear conteúdo sexual, bloquear uma série de coisas que você considera atividades ilegais, fazer uma bomba, uma coisa assim. Isso você pode, tranquilamente, não tem um custo. E é por isso que as big techs querem ganhar vendendo a ilegalidade e não querem gastar filtrando e proibindo a ilegalidade. Ou querem, justamente, fazer uma coisa boba, fingindo que estão tomando alguma atitude, para que depois alguém ganhe, talvez eles mesmos, dinheiro com a ferramenta que elimina a possibilidade de detecção do fake.”

A identificação de produtos tanto textuais quanto audiovisuais é difícil, mas o professor fala que é possível. “Hoje em dia, existem ferramentas de detecção de textos acadêmicos que, em teoria, possam ter sido feitos por IA, mas existem ferramentas que disfarçam isso. Algumas empresas dizem que colocam alguns caracteres escondidos para poder ser identificado, mas é o pior método, porque se eu sei o que ele coloca a mais, é muito fácil de remover. Depois existe a marca d’água. Existem marcas d’água que são pequenos ícones visíveis, mas existem os invisíveis. O que você não vê, mas que está lá dentro, codificado, que uma máquina identifica. Isso é o ideal, porque aí eu tenho como, usando uma ferramenta, identificar essa imagem ou esse vídeo que deixou uma assinatura, uma marca d’água, de que foi gerado por um computador.”

*Sob supervisão de Paulo Capuzzo e Cinderela Caldeira


Jornal da USP no Ar 
Jornal da USP no Ar no ar veiculado pela Rede USP de Rádio, de segunda a sexta-feira: 1ª edição das 7h30 às 9h, com apresentação de Roxane Ré, e demais edições às 12h40, 15h, 16h40 e às 18h. Em Ribeirão Preto, a edição regional vai ao ar das 12 às 12h30, com apresentação de Mel Vieira e Ferraz Junior. Você pode sintonizar a Rádio USP em São Paulo FM 93.7, em Ribeirão Preto FM 107.9, pela internet em www.jornal.usp.br ou pelo aplicativo do Jornal da USP no celular. 


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.