Inteligência computacional usa notícias da internet para prever casos de coronavírus

Interface do Websensors Analytics – Covid-19 [Clique na imagem para acessar a plataforma] – Foto: Reprodução/Websensors Analytics

Enquanto o novo coronavírus continua se espalhando pelo mundo, assistimos à proliferação de uma série de gráficos mostrando a evolução da covid-19 e curvas ilustrando o que poderá acontecer no futuro. Além de assustador, o cenário traz uma série de desafios adicionais para os cientistas da computação: como extrair conhecimentos úteis a partir dessa quantidade gigantesca de informações que circulam na internet sobre a pandemia, aproveitando os recursos tecnológicos que temos à disposição?

Esse é um desafio que já vem sendo enfrentado pelos pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Eles têm obtido bons resultados utilizando técnicas de inteligência artificial aplicadas à mineração de dados nas áreas de agronegócio e educação, por exemplo. Para isso, desenvolvem desde 2014 uma ferramenta chamada Websensors, que usa inteligência artificial para analisar eventos extraídos de textos de notícias, tais como informações sobre o que aconteceu, como, quando, onde e quem está envolvido.

Agora, estão empenhados em coletar eventos mencionando o novo coronavírus ou a doença covid-19. A meta é usar essas informações como conhecimento complementar para ser incorporado em modelos de previsão já existentes. Um exemplo é a previsão da curva de contaminação da pandemia, que pode ser ajustada considerando eventos sobre esse assunto. Além disso, esse conhecimento adicional será importante para apoiar especialistas na identificação futura de iniciativas bem-sucedidas e mal-sucedidas no combate ao vírus, o que terá grande utilidade nas próximas epidemias que enfrentaremos.

Solange Rezende é uma das coordenadoras do projeto e realiza pesquisas na área de mineração de eventos desde 2014 – Foto: arquivo pessoal

“Quando olhamos para a evolução futura da curva de contaminação de uma doença e levamos em conta apenas dados sobre contágios que aconteceram no passado, temos uma visão limitada do problema. Se for possível enriquecer essa visão, adicionando à previsão informações extraídas de fontes confiáveis, acreditamos que poderemos incrementar nosso olhar e, quem sabe, construir modelos preditivos mais próximos da realidade”, explica Solange Rezende, que coordena o projeto junto com o professor Ricardo Marcacini, ambos do Laboratório de Inteligência Computacional do ICMC. A iniciativa conta, ainda, com a participação de dois doutorandos, quatro mestrandos e três pesquisadores colaboradores, como Rafael Geraldeli Rossi, ex-aluno do ICMC que é professor na Universidade Federal de Mato Grosso do Sul.

Web, um poderoso sensor

Vamos imaginar que você encontrasse um viajante do tempo hoje que lhe perguntasse: qual a maneira mais rápida e confiável de compreender o que está acontecendo no mundo em tempo real? É provável que sua resposta fosse: entre na internet. Sim, de fato, é pela web que temos acesso a fontes de informações confiáveis e seguras de todo o mundo, em várias línguas. É por isso que muitos pesquisadores começaram a usar as informações da web da mesma maneira que já utilizamos sensores para medir, por exemplo, a temperatura, a umidade, a quantidade de chuva, a velocidade e a direção dos ventos em um lugar. São os dados captados por esses sensores ao longo do tempo – a variação da temperatura, umidade, chuva e vento – que possibilitaram aos cientistas construírem os modelos para prever o clima no futuro.

Ricardo Marcacini se tornou professor no ICMC no ano passado. Fez graduação, mestrado, doutorado e pós-doutorado no ICMC – Foto: arquivo pessoal

Ora, pense que as informações que circulam na web também podem funcionar como esses sensores e ajudar não apenas um viajante do tempo a compreender nossa realidade, mas também permitir que os pesquisadores desenvolvam novos modelos de previsão de futuro. “Isso acontece porque os computadores conseguem processar uma grande quantidade de informações e encontrar padrões no que aconteceu no passado e que poderá se repetir no futuro”, explica Marcacini.

No caso da covid-19, os links da web são captados por meio de uma plataforma internacional chamada GDELT. A seguir, os pesquisadores do ICMC coletam as notícias que se referem especificamente à doença ou ao coronavírus, desde que sejam provenientes de fontes confiáveis, e fazem um pré-processamento. Nessa etapa, utilizando várias técnicas, como as de processamento de linguagem natural, os textos são transformados em um conjunto de sinais. É como se houvesse uma tradução da linguagem humana para uma linguagem que as máquinas conseguem compreender.

Na sequência, esses sinais são inseridos no circuito de uma rede neural. Tal como no cérebro humano, em que os sinais que captamos por meio dos nossos sentidos vão sendo processados, a rede neural analisa as características extraídas dos textos coletados e dá um peso diferente a cada uma, de acordo com a maior ou menor frequência em que a característica surge na coletânea. É comparável ao trabalho que nossos neurônios realizam depois que os olhos captam várias imagens diferentes e vamos identificar o que há em comum entre elas. Mas lembre-se de que, nesse caso, estamos falando de encontrar padrões em uma gigantesca quantidade de textos, um trabalho impossível de ser realizado manualmente e que pode resultar em valiosos conhecimentos, como já demonstrado em vários estudos.

Em todo o globo, de 19 a 24 de março, a plataforma criada pelo grupo de pesquisadores do ICMC (http://websensors.net.br/projects/covid19) capturou um total de 26.713 eventos georreferenciados extraídos de notícias que citam a covid-19 ou o coronavírus. Esse processo de coleta é contínuo. Unindo essas informações aos dados de contaminação oficiais (coletados pelo Data Repository by Johns Hopkins CSSE), os cientistas elaboraram um modelo de previsão da curva de contaminação para os próximos sete dias (veja a seguir, em amarelo). Note que essa curva é mais acentuada do que a observada nos modelos epidemiológicos que consideram apenas os dados de contaminação (em verde). “Acrescentando os eventos, de fato há um ajuste para cima, com a previsão de mais casos, embora a gente precise fazer a ressalva de que ainda temos poucos dados no Brasil para validar estatisticamente essa análise preditiva”, pondera Marcacini.
.

Comparação de 10 diferentes execuções do modelo de predição adicionando eventos (linha amarela) e excluindo eventos (verde) em 24 de março – Foto: Reprodução/Websensors Analytics

Aplicação na agricultura e no combate à evasão escolar

Desde 2014, os pesquisadores do ICMC têm trabalhado para desenvolver o conhecimento e a tecnologia denominada Websensors que, hoje, está sendo utilizada no projeto da covid-19. Ao longo dos anos, vários estudos foram realizados com o apoio das principais agências de fomento à pesquisa do País.

Um dos desafios que têm mobilizado a equipe é explicar o comportamento passado e predizer o comportamento futuro da produtividade em agricultura e agropecuária no Brasil, que será uma das frentes de atuação do novo Centro de Pesquisa em Engenharia em Inteligência Artificial. A educação é outra área em que os pesquisadores do ICMC já desenvolveram aplicações premiadas usando conhecimentos e tecnologias sobre mineração de eventos. Em 2018, por exemplo, os pesquisadores criaram uma plataforma para analisar informações históricas sobre o comportamento virtual de estudantes com o objetivo de evitar o abandono dos cursos a distância.

Texto: Denise Casatti – Assessoria de Comunicação do ICMC/USP