Inteligência artificial identifica autoria de obras literárias

O ato de dividir os livros em redes que evoluem no tempo é a principal inovação desse trabalho – Foto: Marcos Santos / USP Imagens

.
Com uma taxa de 88,7% de acerto, a autoria de 71 obras literárias foi identificada por um sistema de inteligência artificial desenvolvido por pesquisadores do Instituto de Física de São Carlos (IFSC) e do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. No total, o sistema avaliou 80 livros (em inglês) escritos por oito autores, como Charles Dickens, entre outros. O conceito do sistema é baseado em duas metodologias de física estatística: redes complexas e a análise de séries temporais.

As redes complexas têm auxiliado cientistas que trabalham com aprendizado de máquina – que consiste em treinar um sistema computacional a partir de dados, que podem ser de imagens, vídeos e textos, para identificar padrões; no caso do trabalho em questão, as redes complexas têm características não triviais em sua topologia. Já a segunda metodologia ajuda a entender fenômenos e sistemas cuja variação ao longo do tempo não pode ser prevista com modelos simples. Hoje, a análise de séries temporais é bastante útil no sistema financeiro, permitindo, por exemplo, prever a evolução de taxas de câmbio e ações de empresas nas bolsas de valores.

O sistema inteligente realiza vários passos. Cada livro é dividido em parcelas cujas redes de co-ocorrência tenham o mesmo número de palavras, transformando-se assim em uma série de redes. Em uma rede de co-ocorrência, as palavras de um texto são os nós, e cada vez que duas palavras aparecem juntas, uma aresta (ou seja, um link) é estabelecida entre elas. Se essas palavras co-ocorrentes se repetem, aumenta-se o peso das arestas. De cada rede extraem-se medidas de sua topologia. Tais medidas denotam, por exemplo, qual é o padrão de conexão na rede, se há nós muito mais conectados que outros, ou se os nós mais conectados se relacionam com aqueles que têm poucas conexões.

A série temporal é então formada pelas métricas de cada rede (parcela do texto) até o fim do livro analisado. Através das séries temporais relacionadas a esse trabalho, observou-se que há um padrão característico para cada autor, ou seja, as estruturas textuais dos escritores se assemelham às suas digitais. Isso foi aprendido pelo sistema inteligente a partir de algoritmos de aprendizado de máquina – a máquina acertou quais eram os autores de 71 livros analisados, a partir do algoritmo de melhor desempenho.
.

As características de um texto se revelam na maneira como o texto é estruturado, diz o autor da pesquisa, o professor Osvaldo Novais de Oliveira Junior, do IFSC. Foto: Divulgação/IFSC

Autoria textual

“As características de um texto se revelam na maneira como o texto é estruturado”, explica o coordenador da pesquisa, professor Osvaldo Novais de Oliveira Junior, do IFSC. Segundo ele, o ato de dividir os livros em redes que evoluem no tempo – ao “ler” cada livro – é a principal inovação desse trabalho, pois em outros estudos encontrados na literatura sobre sistemas inteligentes para verificação de autoria textual, cada texto avaliado geralmente corresponde a uma única grande rede de co-ocorrência. Com a divisão dos trechos foi possível incluir metodologias de física estatística de séries temporais, melhorando a capacidade de análise.

Esse sistema “inteligente” poderá ser utilizado, por exemplo, na verificação de eventuais plágios e de qualidade de texto, independentemente do tamanho do conteúdo a ser analisado. O docente do IFSC afirma ainda que o objetivo final desse tipo de pesquisa é ensinar o computador a interpretar texto.

A figura exemplifica uma rede de co-ocorrência de palavras extraídas do livro *A Tale of Two Cities* (*Um Conto de Duas Cidades*), de Charles Dickens – Imagem: Divulgação IFSC

Mas será que os sistemas computacionais poderão compreender um texto? A resposta de Novais para essa pergunta é positiva, já que nos últimos anos tem havido um enorme progresso nessa área de estudo. Aliás, já se sabe que uma máquina pode, por exemplo, aprender a reconhecer objetos tal como uma criança faz – através de exemplos e, portanto, a partir de padrões! Com o aumento na capacidade de memória e processamento das máquinas, consegue-se antever que tarefas ainda mais complexas possam ser executadas.

Para ter uma máquina que, além de identificar autoria, compreenda o que está escrito em um texto, é preciso treiná-la com o maior número possível de exemplos. Atualmente, o sucesso desse tipo de estratégia é ilustrado pela considerável melhora nos tradutores automáticos, que agora já introduzem aprendizado de máquina. Os projetos do Núcleo Interinstitucional de Linguística Computacional, do qual Novais é membro fundador, em parceria com o Grupo de Computação Interdisciplinar do IFSC da USP, visam a desenvolver métodos e criar conceitos inovadores que também possam ser usados em grandes volumes de dados (o que se chama de Big Data).

“Podemos prever que o trabalho que estamos discutindo sirva de inspiração para projetos nos quais grandes volumes de dados serão processados e que, provavelmente, terão desempenho superior ao que tivemos”, diz o docente. Neste ano, um artigo descrevendo a citada pesquisa foi publicado na revista PLOS ONE, podendo ser acessado na íntegra aqui.

Rui Sintra, da Assessoria de Comunicação do IFSC