
Blog
Sistemas de Inteligência Artificial transparentes detectam discurso de ódio e fake news
Modelos classificam e explicam por que notícia ou comentário foi classificado como falso ou ofensivo, em oposição a métodos ‘caixas-pretas’ banidos recentemente
Pesquisadora da USP desenvolveu três modelos que classificam e explicam por que uma notícia ou comentário foi rotulado como falso ou ofensivo - Fotomontagem Jornal da USP com imagens de: d3images/Freepik; Freepik
Imagine uma ferramenta que, em poucos segundos, analisa comentários suspeitos na internet e revela se eles são falsos ou promovem discurso de ódio, explicando o motivo da classificação. Esse foi o objetivo que inspirou a pesquisadora Francielle Alves Vargas a desenvolver, no Instituto de Ciências Matemáticas e da Computação (ICMC) da USP em São Carlos, três modelos que classificam e explicam por que uma notícia ou comentário foi classificado como falso ou ofensivo. O sistema ajuda o público a entender o processo de decisão, além de mitigar os riscos desses modelos estarem enviesados e reforçarem ou propagarem problemas sociais. A pesquisadora criou ainda o HateBR, primeiro banco de dados brasileiro voltado exclusivamente para a detecção de discurso de ódio.
Apesar de eficientes em identificar fake news e discursos de ódio, os sistema atuais de verificação de fatos nem sempre revelam os critérios usados para as classificações. Essa falta de transparência, característica de modelos baseados em inteligência artificial (IA) funcionam como “caixas-pretas”, podendo propagar diferentes tipos de vieses.
Para desenvolver sistemas de verificação de fatos e detecção de discurso de ódio, é essencial dispor de grandes conjuntos de dados organizados e rotulados, ou seja, bases que indiquem claramente quais conteúdos são factuais, enviesados (que apresentam alguma parcialidade ou opinião) ou falsos (compostos por informações inverídicas ou manipuladas). Até então, essas bases existiam principalmente em inglês, o que dificultava a adaptação de modelos para o contexto brasileiro. “Criar uma base de dados é algo custoso, demorado e exige conhecimento especializado”, explica Francielle.
Apesar do desafio, a pesquisadora não se intimidou e contou com o apoio de duas colegas doutoras na área de Ciência de Dados e IA, Isabelle Carvalho e Fabiana Góes. Juntas, elas rotularam manualmente 7 mil comentários do Instagram ao longo de seis meses, resultando no HateBR. Para reduzir o risco de viés de classificação, que ocorre quando as interpretações ou preferências pessoais dos anotadores influenciam os resultados, Francielle adotou uma estratégia de diversidade. Ela selecionou pesquisadoras com perfis variados, incluindo mulheres brancas e negras, provenientes das regiões Norte e Sudeste do Brasil, e com diferentes orientações políticas. Essa abordagem garantiu uma análise mais equilibrada e representativa, minimizando possíveis influências subjetivas nas anotações dos dados.

“Ao desenvolver esse tipo de sistema e criar esses conjuntos de dados, o objetivo principal é proteger grupos historicamente marginalizados, como mulheres e a comunidade LGBT+”, afirma a pesquisadora - Foto: Divulgação ICMC
Contra a desinformação
Francielle também construiu o FactNews, selecionando notícias dos mesmos assuntos e do mesmo dia publicadas por três veículos de mídia amplamente reconhecidos no Brasil — Folha de São Paulo, Estadão e O Globo. No total, foram coletadas 300 notícias, sendo 100 de cada veículo, que foram classificadas, frase a frase, com base na factualidade; ou seja, se condizem com fatos reais e se estes eram parciais ou imparciais (sem interpretações ou julgamentos). Se a frase fosse objetiva, ela era classificada como conteúdo factualmente correto. Caso fosse parcial, ela passava para uma segunda classificação, baseada no modelo da AllSides, empresa americana que avalia o viés político de agências de notícias.
Entre as 12 categorias de viés da notícia, se destacam alegações infundadas, distorção da informação e sensacionalismo. “Essa categorização foi crucial porque lidamos com estratégias sofisticadas de desinformação, que são elaboradas para manipular a percepção das pessoas”, observa. A pesquisadora também aplicou métodos estatísticos para calcular a pontuação de concordância entre as classificações. Essa abordagem garantiu que as análises fossem consistentes e minimamente subjetivas, aumentando a confiabilidade dos dados.
Durante três meses como pesquisadora visitante na Universidade do Sul da Califórnia (Estados Unidos), em 2024, Francielle Alves Vargas se aprofundou nas origens desse tipo de comportamento. Segundo a pesquisadora, conteúdo odioso pode ser dividido em duas categorias principais:
- discurso ofensivo – motivado por frustrações cotidianas, não é direcionado ou motivado contra um alvo, como alguém que acorda de mau humor e desconta suas emoções em tudo e todos;
- discurso de ódio – direcionado a um alvo baseado na sua identidade social, como gênero, raça ou orientação sexual, mais profundo e perigoso, e que desencadeia os crimes de ódio.
“Há crenças enraizadas na sociedade que geram ameaças percebidas. Por exemplo, quando um homem vê uma mulher em uma posição de poder, ele pode sentir que sua própria posição está ameaçada. Esse tipo de crença, fruto de um histórico de desigualdades, alimenta o discurso de ódio contra determinados grupos”
Francielle Alves Vargas

Francielle Alves Vargas - Foto: franciellevargas.github.io

A pesquisadora desenvolveu uma ferramenta para auxiliar profissionais de redes sociais na identificação de comentários odiosos - Foto: Divulgação ICMC
Após desenvolver uma base de dados robusta, a pesquisadora criou três novos métodos explicáveis para verificação de fatos e detecção de discurso de ódio. O Sentence-Level Factual Reasoning (SELFAR), baseado em grandes modelos de linguagem (também conhecidas por Large Language Models, LLMs em inglês) classifica a confiabilidade e a factualidade de artigos de notícias ou postagem na web no nível da sentença, gerando explicações para as classificações e atribuindo uma nota de credibilidade. Nos experimentos, Francielle demonstrou que notícias não confiáveis são compostas principalmente de palavras subjetivas, em contraste com as confiáveis.
Outro método criado foi o Social Stereotype Analysis (SSA), uma ferramenta que detecta estereótipos em classificadores de IA, comparando frases com e sem viés social. Ela descreve estereótipos como estruturas cognitivas que contêm o conhecimento, crenças e expectativas do observador sobre grupos humanos, podendo desencadear viés social positivo ou negativo, dependendo da identidade social envolvida. Além disso, são apresentados exemplos que contrastam estereótipos e contra-estereótipos para evidenciar vieses nos classificadores de discurso de ódio.
Por fim, o Bag-of-Words Contextualizado com Feature Saliency (B+M) combina abordagem tradicional, que contabiliza a frequência das palavras em um texto, com a análise contextual, que considera o significado das palavras no contexto em que estão inseridas. O objetivo é identificar as palavras mais relevantes para a classificação de um texto, como discurso de ódio ou fake news. A diferença em relação aos métodos tradicionais está na inclusão da análise de saliência, que atribui pesos às palavras com base em sua importância no contexto específico, em vez de apenas contar sua ocorrência. Além dos três métodos, a pesquisadora também criou o Brasil#SemÓdio, um sistema web que se utiliza de conhecimento estatístico e de especialistas para classificar comentários ofensivos em três níveis diferentes: levemente, moderadamente e altamente ofensivo. Através de um site simples e de fácil utilização, é possível classificar um ou vários comentários em redes sociais ao mesmo tempo.
Desafios e colaborações
O orientador da pesquisa, professor Thiago Pardo, do ICMC, enfatiza a complexidade e relevância do trabalho. “Detecção de discurso de ódio e checagem de fatos são temas desafiadores. Além das questões técnicas e científicas, há dilemas éticos e legais, como os limites entre censura, liberdade de expressão e crimes”, aponta.
“Vivemos dilemas diários com o poder das big techs, a epidemia de desinformação e os discursos de ódio. Trabalhos como o de Francielle são fundamentais para promover uma sociedade mais justa, transparente e democrática”
Thiago Pardo

Thiago Pardo - Foto: CV Lattes
Durante o desenvolvimento da pesquisa, Francielle enfrentou desafios comuns a muitas pesquisadoras brasileiras, entre eles o fato de muitas vezes ser a única mulher em sala de aula, e a necessidade de muita organização financeira para que o valor que recebia como bolsa de estudo cobrisse todas as despesas. Os desafios foram superados com muita persistência e o apoio de sua colega Isabelle Carvalho, e do seu co-orientador, o professor Fabrício Benevenuto, da Universidade Federal de Minas Gerais (UFMG), que trouxe sua expertise nessa área de pesquisa colaborando com o projeto. “Foi, sem dúvida, um trabalho intenso, que exigiu muito esforço, produção de vários artigos, além de insistência e resiliência”, diz Francielle.
A pesquisadora diz que sonha em ver seu projeto, cujo código está disponível em um servidor experimental da USP, ser disponibilizado em larga escala, ajudando especialmente grupos vulneráveis, como pessoas idosas e com menos acesso à educação. “Meu desejo é que todos os brasileiros possam usar essas ferramentas para checar notícias falsas e entender os mecanismos por trás das decisões dos modelos de IA”, afirma. “A transparência, além de gerar aumento de confiabilidade, também tem um papel educativo, criando uma sociedade mais crítica e consciente”.
A tese Socially Responsible and Explainable Automated Fact-Checking and Hate Speech Detection, foi defendida em novembro de 2024 no ICMC e está disponível neste link.
Embora ainda necessite de investimento e recursos para ampliar seu alcance, a pesquisa representa um avanço essencial para o uso ético e responsável da IA. Atualmente, Francielle está organizando, junto com uma professora da USP e um colega da Universidade do Sul da Califórnia, um evento internacional, que acontecerá neste ano na Itália, entre os dias 30 de junho e 5 de julho. O workshop, intitulado Explainable Deep Neural Networks for Responsible AI: Post-Hoc and Self-Explaining Approaches (DeepXplain 2025), visa dar continuidade a sua proposta de doutorado, para garantir a transparência dos modelos de Processamento de Linguagem Natural, sobretudo LLMs, aumentando sua credibilidade, além de garantir que eles sejam socialmente responsáveis.
**Estagiário sob supervisão de Moisés Dorado

A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.