Avanço da IA generativa reforça vulnerabilidades dos veículos jornalísticos brasileiros

Por Beth Saad, professora da Escola de Comunicações e Artes (ECA) da USP e João Pedro Malar, mestrando na ECA-USP

 Publicado: 04/04/2024
Elizabeth Saad – Foto: Arquivo pessoal da autora
João Pedro Malar – Foto: Linkedin
Poucos assuntos são mais polêmicos quando se fala em inteligência artificial generativa do que como ela captura dados usados no treinamento dos modelos de linguagem dos quais se utiliza. O ChatGPT é o exemplo mais popular dessa polêmica, e o jornalismo está diretamente envolvido neste debate.

O motivo é simples: estudos e dados divulgados pelas próprias donas das ferramentas de IA mostram que os conteúdos jornalísticos que circulam pela internet são muito utilizados para “treinar” os modelos. E isso não acontece por questão de gosto. Os chamados grandes modelos de linguagem (LLM) por trás das IAs funcionam a partir do recebimento de uma quantidade gigantesca de dados, ou “exemplos”.

É a partir desses conteúdos que o modelo cria uma base própria para, em seguida, gerar conteúdos em texto, áudio, imagem ou vídeo. Ou seja, a resposta do ChatGPT em uma conversa ou a imagem criada pelo Stable Diffusion não surgiram do vazio. Na verdade, a origem é bastante concreta: o conteúdo que está na internet. Ao mesmo tempo, é importante que esses modelos tenham acesso a conteúdo de qualidade, bem escrito, estruturado, seguindo as melhores práticas de uma língua e usando boas estratégias argumentativas, de exposição e de convencimento.

O jornalismo atende bem a todas essas exigências. Em geral, as empresas donas de LLMs obtêm esses conteúdos a partir dos chamados crawlers. Para não complicar, pensemos neles como robôzinhos que circulam pela internet e extraem conteúdos de sites. Uma das bases de crawlers mais famosas é a Common Crawl, que foi usada no treinamento do GPT-3, uma das versões do modelo por trás do ChatGPT, da OpenIA.

Dados do próprio Common Crawl mostram que, em 2019, dos 25 sites com mais conteúdo extraído, 12 são veículos jornalísticos, incluindo The New York Times, Washington Post, The Guardian, Forbes e Business Insider. São, literalmente, dezenas de milhares de matérias jornalísticas que acabaram servindo como material na “formação” do GPT-3. O uso dos crawlers não é uma novidade, longe disso, mas a popularidade gigantesca do ChatGPT e semelhantes abriu os olhos de muitos jornais para um problema.

O conteúdo produzido por esses veículos – que em geral exige trabalho, tempo, esforço, pessoal e recursos – estava sendo usado para criar ferramentas de alta qualidade, que por sua vez geram lucros para seus criadores, sem nenhum tipo de retorno para os jornais. Pior, há quem afirme que a IA generativa pode ser exatamente o que vai aprofundar a crise do jornalismo, contribuindo para cortes em redações e queda no tráfego de usuários em mecanismos de busca para sites.

Essa conclusão deu origem a uma série de movimentos na indústria jornalística para tentar reverter um quadro desfavorável. Alguns jornais entenderam que seria mais lucrativo se juntar às empresas donas das IAs do que enfrentá-las, e então firmaram acordos milionários de remuneração em troca de permitir o uso dos dados para treinamento de LLMs. É o caso do grupo Axel Springer, dono de veículos como o Politico e o Business Insider. Uma reportagem do The Verge aponta que a OpenAI costuma oferecer entre US$ 1 milhão e US$ 5 milhões anuais para os veículos nesses acordos.

Outros decidiram ser mais agressivos. O melhor exemplo é o The New York Times, que processou a OpenAI alegando que a empresa violou as leis de direitos autorais dos Estados Unidos ao usar conteúdo do jornal sem permissão para treinar seu LLM. Resta ver, agora, qual será o resultado do processo, e se o objetivo do jornal não seria apenas pressionar a OpenAI para conseguir um acordo mais parrudo que de seus concorrentes.

Mas uma estratégia mais generalizada tem ganho espaço: bloquear o acesso dos crawlers nos sites jornalísticos. Um estudo divulgado pelo Reuters Institute aponta que 48% dos principais sites de notícias ao redor do mundo bloquearam os crawlers da OpenAI até o fim de 2023. No recorte por país, porém, a situação varia bastante. Nos Estados Unidos, por exemplo, 79% dos veículos já realizaram bloqueios. Na Índia, Alemanha e Noruega foram 60%. Já no Brasil, foram 33%, enquanto 27% fecharam seu conteúdo na Espanha e 20% no México.

Os números mostram a nuance do fenômeno, mas também indicam que os veículos jornalísticos brasileiros estão saindo atrás das suas contrapartes no chamado “Norte Global”. Ao mesmo tempo, ainda não há notícias de acordos firmados entre veículos brasileiros e empresas de IA para licenciamento de conteúdo. Também não houve nenhum processo aberto. Ou seja, nenhuma das estratégias citadas ganhou tração – ou sequer foi posta em prática – no país por enquanto.

Existem diversos motivos para explicar isso. O fenômeno não é exclusivo do avanço da IA generativa e envolve dinâmicas mais amplas da relação entre o “Norte” e o “Sul”. As grandes empresas de IA estão nos Estados Unidos e Europa, portanto é natural que o “primeiro contato” ocorra com jornais de lá, assim como a intensidade das reações. Há, também, o fato de que muitos veículos nesses países possuem mais recursos para conseguir comprar a briga com gigantes de tecnologia e têm mais poder de barganha.

Alguns veículos em outros países, podem, inclusive, nem ter conhecimento sobre o funcionamento dos crawlers, ou então considerarem que o tema não traz riscos ou prejudica seus veículos, e, portanto, não há por que bloqueá-los. Por fim, as próprias empresas de IA podem ter um baixo interesse em licenciar conteúdos em português, dificultando os acordos, e veículos brasileiros, em especial os nativos digitais, podem ser mais dependentes de programas de incentivos já existentes dessas empresas.

É uma dinâmica bastante semelhante ao observado entre os veículos jornalísticos e as donas de plataformas digitais. E não é à toa. Afinal de contas, são as big techs que estão por trás de muitas das ferramentas mais populares de inteligência artificial generativa. O Google possui o Gemini, antigo Bard, a Microsoft é investidora da OpenAI e usa o LLM da empresa no seu Copilot e Bing Chat. A Meta – dona do Facebook, Instagram e WhatsApp – também possui seu próprio LLM.

Nesse sentido, há muito para se aprender tomando como base a relação entre as plataformas digitais e o jornalismo. No recente artigo Escape Me If You Can: How AI Reshapes News Organisations’ Dependency on Platform Companies, publicado na conceituada revista acadêmica Digital Journalism, o pesquisador Felix Simon, da Universidade de Oxford, aponta que a adoção de ferramentas de IA representa apenas mais um passo na crescente dependência dos jornais em relação às big techs, mas que isso não ocorre sem motivos: a inteligência artificial generativa traz suas vantagens para as organizações, mesmo às custas de reforçar vulnerabilidades das empresas jornalísticas e de racionalizar ainda mais o trabalho de jornalistas.

O risco, portanto, é repetir exatamente os mesmos problemas em torno da crescente, cada vez mais bem documentada e perigosa dependência dos veículos jornalísticos em relação às big techs. Não parece coincidência que o mesmo estudo do Reuters Institute aponta que apenas 24% dos veículos estão bloqueando crawlers do Google. Além disso, grandes veículos tradicionais estão bloqueando os crawlers mais que os veículos menores, indicando possíveis dificuldades técnicas, falta de recursos para o bloqueio, baixo interesse e conhecimento ou receios devido à dependência maior das plataformas digitais para distribuição de conteúdo.

Ao mesmo tempo, os veículos jornalísticos dão sinais mundo afora que estão percebendo os malefícios da relação com as big techs e reagindo. Não é coincidência que 2023 foi marcado pelos debates em torno da remuneração de conteúdo jornalístico pelas big techs. Mas essa percepção ocorreu anos depois que a relação começou, e agora é difícil correr atrás do prejuízo. A oportunidade que se apresenta no momento com a IA generativa é exatamente implementar cedo as lições aprendidas com as plataformas sociais e de busca. Não há tempo a perder, seja no Brasil ou no resto do mundo.

_______________
(As opiniões expressas pelos articulistas do Jornal da USP são de inteira responsabilidade de seus autores e não refletem opiniões do veículo nem posições institucionais da Universidade de São Paulo. Acesse aqui nossos parâmetros editoriais para artigos de opinião.)


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.