O poder da inteligência artificial no cruzamento entre ChatGPT e deepfakes

Por Magaly Prado, pesquisadora na Cátedra Oscar Sala, do Instituto de Estudos Avançados (IEA) da USP

 31/07/2023 - Publicado há 9 meses
Magaly Prado – Foto: Arquivo Pessoal
Foi só a OpenAI lançar em novembro de 2022 o ChatGPT, a versão 3,5 conversacional e acessível a todos — não somente a empresas, como eram as versões anteriores do GPT (Generative Pre-trained Transformer) —, para que os especialistas em comunicação, matemática, computação, lógica, linguística, tecnologia da informação etc. começassem a se preocupar com os danos da inteligência artificial (IA) generativa. Esta se trata de um dos tipos da IA de nível narrow, ou seja, compartimentada e (ainda) limitada.

Apesar do cipoal de opiniões e estudos de pesquisas apresentados sobre a inovação tecnológica baseada em dados inseridos na sociedade das plataformas, até hoje vemos lives em que moderadores perguntam o que é e como funciona o GPT. Vale destacar: por “dados”, devemos considerar informações obtidas de determinado período no passado, com o intuito de prever efeitos no futuro.

Obviamente, internautas que estão a par do que se trata e já experimentaram ao menos uma pergunta ao robô simpático em eterno plantão, torcem o nariz, pois já sabem o básico: querem mais. Eles sabem, inclusive, que somos cada vez mais usados pelas máquinas e constatam que é imprescindível aguçar e explorar ao máximo a intencionalidade face à IA. Como isto é possível? Ao fazer perguntas de elevada qualidade — preferencialmente, advindas de um pensamento crítico — no proveito de se produzir um bom objeto de análise. Ainda, fazê-lo de forma contextualizada, sinalizando para qual finalidade, determinado público etc., de modo a obter respostas mais refinadas em tempo real.

Após a explosão de dados — matéria-prima de uso indiscriminado — nas últimas décadas, sabemos dos potenciais riscos à democracia ocasionados pela IA. A situação seria agravada pela conjuntura de crise da informação, crescente polarização social e política nas bolhas digitais, vigilância em ascensão e falta de proteção a nossos dados. Além disto, que softwares como o ChatGPT — treinados com big data para encontrar padrões estatísticos e determinar pesos e medidas — são perigosamente sofisticados para a superindústria da desinformação é algo pacificado nesta era pós-factual.

Diversidade e desordem informacional

Afinal, este tipo de IA simula e tenta imitar o cérebro humano agregando, inclusive, nossos desvalores. Convenhamos: somos recheados de crenças, discriminações, vieses de confirmação etc. que transpassam automaticamente os dados que são imputados aos algoritmos. Isto, sem contar o próprio viés (com dados incompletos) dos programadores e o da equipe desenvolvedora — muitas vezes formada com diversidade zero (não estou aqui me referindo à importância da diversidade de ideias ou à noção mais contemporânea em ESG/DEI identitária, de diversidade de gênero, étnica e afins, digo ao menos a mínima), fica baseada em dados não representativos da sociedade em questão. Tal problema fica mais evidente, por exemplo, na criação de perguntas essenciais no momento de entrevistar os dados: estas, muitas vezes, seriam impróprias ou insuficientes, por não espelharem as composições das comunidades pesquisadas.

Mas basta perseguir a lógica quando quem pergunta, seja humano ou outro bot, ao produzir um prompt (comando de texto e, de preferência, contexto) solicitando respostas de algo falso que, axiomaticamente, o resultado será igualmente falso. Nesse caso, não se trata de algo fora do alcance da informação, um erro ou alucinação — o que, por vezes, ocorre: é falso mesmo, exatamente de acordo com o que foi solicitado, comando após comando, amplificando a já instalada desordem informacional. Se o pedido ainda requereu o estilo de algum autor em particular, a resposta apresentada pode enganar ainda mais facilmente; afinal, a especificidade linguística melhora a aparência da farsa.

No alto da era algorítmica, em que a ética é apartada, o ChatGPT é configurado com algoritmos de grandes modelos de linguagem (LLM). Estes configuram uma distribuição de probabilidades sobre sequências de símbolos ou palavras, algo que revoluciona o processamento de linguagem natural e aprendizado profundo de máquina para reconhecimento e produção de textos semelhantes aos gerados por humanos, mentirosos ou não. Tal circunstância pode, inclusive, complicar ainda mais a situação quando o sistema entra em modo disruptivo de aprendizado autossupervisionado; ou seja, quando ele passa a aprender consigo mesmo, com elementos de caráter autônomo. Deste modo, a própria máquina nos leva a refletir sobre o estatuto moral dos sistemas de IA — assunto, porém, para outro artigo.

Sobre (des)confiança e deepfakes

Há que se ressaltar a falta de fontes e referências nas respostas dadas pelo ChatGPT, por exemplo: consequentemente, nem dá para checar a veracidade dessas informações digitais, tamanho é o remix. A ferramenta da OpenAI, a rigor, não produz nada genuinamente novo, não segue adiante. Ela apenas faz uma mescla do que já existe na internet para gerar um resumo — de forma mecânica e semiautônoma —, meramente respondendo ao que foi pedido, como se fosse escrito por um ser humano.

Trata-se de um total impedimento de seu uso pelo jornalismo, que credita sistematicamente as fontes das quais são retiradas as informações — especialmente em ambientes digitais, por conta da facilidade quanto à inserção de links para estudos, vídeos etc. Mesmo assim, a crescente desconfiança na imprensa escala com poucas flutuações há cerca de uma década, conforme registrado por pesquisas de Gallup, Edelman e Pew Institute, entre outros. Imagine se os jornalistas usarem o que esses robôs despejam — geralmente, com tom muito assertivo e 100% confiável — para, então, constatarmos que a verdade é muito diferente.

Quando do advento das deepfakes, imaginávamos que elas seriam o auge da desinformação. Afinal, é difícil contestar o vídeo de alguém falando algo ultrajante, que não disse, com imagens e voz produzidas por IA. O motivo: a atratividade e tradição de confiabilidade do relato via mídia audiovisual, que nem todos percebem quando é, digamos, recontextualizada. À semelhança lógica do aprendizado de máquina, existem várias ferramentas criativas como o DALL-E (agora, DALL-E 2) e o Midjourney. Estas produzem imagens mixadas desde criações anteriores a partir de prompts — e já provocam espanto e fascínio há alguns anos.

O AudioLM, por exemplo, trabalha a partir da mesma lógica: basta imputar um trecho de áudio (bruto ou não) para o robô sonoro mapear, clonar e continuar a gerar áudio produzido por um codec de áudio neural. No caso da criação sintética de falas derivadas de vozes humanas, o resultado esperado e, em boa parte, obtido, é sintaticamente correto e semanticamente consistente — e inclui sotaques, ritmos vocais e estilo do ser falante. A tecnologia do AudioLM também permite criar continuações coerentes — e agradáveis ao ouvido humano — para peças musicais, com instrumentos como o piano.

Caos irresistível

Estamos acostumados aos áudios de IA em Alexa, Siri, Jukebox e demais assistentes virtuais do gênero. Obviamente, são diferentes, pois necessitam de trabalho de transcrição e rotulação. No entanto, o uso em internet das coisas (IdC) é vasto e pode ser mais bem estudado quanto à verificação automática de sistemas de speaker. No AudioLM, bastam alguns segundos do áudio no prompt para o modelo de aprendizado de máquina usar processamento de linguagem natural e aprender os padrões do som. Esta possibilidade certamente configura grave ameaça cibernética aos sistemas biométricos de voz. Um adendo: ao contrário do ChatGPT, o AudioLM ainda não foi liberado de forma ampla para uso pelo público em geral.

No entanto, o ChatGPT como gerador de conversas, alucinantes ou não, ganhou outro atrativo na competição pela atenção do usuário. Este novo chamariz possui elementos viciantes e, de quebra, se aprimora com o reforço humano nessa experiência que envolve forte simbologia de caráter mental.

Consideremos por agora, em processos de dataficação, um exemplo que une uma deepfake news tanto de texto, vídeo, foto ou somente de áudio — cuja proliferação é grande em mensageiros instantâneos. Adicione a esta receita caótica uma farta dose da facilidade de produção de textos falaciosos que esses programas de LLM jorram velozmente, aos borbotões. Por fim, acrescente a possibilidade de o texto ser redigido em estilo autoral determinado e temos uma sedução blefante que revela ser a mais consistente — e perigosa — cacofonia informacional.

Resultado: trata-se de um plágio camuflado produzido desde um sistema computacional e a partir de um modelo de machine learning desenvolvido para melhorar a tomada de decisão automatizada por meio de redes neurais artificiais. Este aparato gera, com a lógica conexionista de seu algoritmo, a próxima palavra e, assim, por exposição e sucessivamente, monta uma variação de textos provenientes de uma mistura que, a rigor, pode mesmo não ter critérios definidos quanto à escolha de fontes. No limite, o processo criativo pode até buscar textos inverídicos, conspiratórios — e, ainda, os de teor odioso, que pelo grau de emoção que incitam, influenciam negativamente e aumentam o engajamento em certas redes, também pelo efeito de algoritmos que contribuem para a formação de bolhas.

Sabemos que quando o intento é maximizar interesse e relevância — seja qual e como for — para engajar, nada impede ações nessa sociedade pós-verdadeira em que vivemos. Um medo que impera diz respeito a como, entre uma variedade de tarefas linguísticas, as ferramentas algorítmicas aprendem habilidades para as quais não foram treinadas e que podem ficar fora do controle de seus programadores humanos pela dificuldade em fazer a engenharia reversa.

É importante considerar que o ChatGPT e tecnologias similares, como o Bard, do Google, são engenhos poderosos. Não são, meramente, ferramentas informativas; são, de fato, instrumentos criativos. Por isso, são necessárias reflexões e auditorias constantes nesses modelos de linguagem de IA generativa, de modo que possamos regularmente averiguar possíveis falhas éticas embutidas desde sua estrutura e até suas criações.

Afinal, os dados com que a IA trabalha são, em muitos casos, extraídos da própria internet, acarretando possíveis deformidades intencionais, como ocorrências tendenciosas de todo o leque de desinformação e toxicidade. Isto inclui, ainda, narrativas extremistas de todo tipo e seu subsequente uso nocivo por pessoas imprudentes — ou, pior, de má índole —, alimentando erros e espalhando parâmetros que passam a integrar o próprio algoritmo de nossos pensamentos.

Assista ao vídeo com um depoimento sobre deepfake no Café Filosófico “Presente do Futuro”, de Lucia Santaella em 2021:

________________
(As opiniões expressas nos artigos publicados no Jornal da USP são de inteira responsabilidade de seus autores e não refletem opiniões do veículo nem posições institucionais da Universidade de São Paulo. Acesse aqui nossos parâmetros editoriais para artigos de opinião.)


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.