Revisores ortográficos de softwares têm origem em projeto da USP

Poucos sabem que, nesta imagem, há um exemplo de aplicação de inteligência artificial – Foto: Divulgação

Pense que você está sem conexão com a internet – o que é bastante raro atualmente, mas faça um esforço imaginativo. Justo nesse dia, você precisa urgentemente redigir um texto em português. Então, liga o computador e acessa um dos mais famosos editores de texto da atualidade: o Word, da Microsoft. Começa a digitar e escreve “inteligencia” artificial. Imediatamente, a palavra aparece grifada e, ao clicar sobre ela, vê uma recomendação para colocar um acento circunflexo na segunda vogal “e”.

Pois bem, você acaba de experimentar, na prática, uma aplicação de inteligência artificial sem sequer estar conectado à rede mundial de computadores ou usando as últimas tecnologias. Poucos sabem que esse simples e prosaico exemplo tem origem no interior do Estado de São Paulo, na cidade de São Carlos. Conhecida como capital da tecnologia, o município é berço dos recursos linguístico-computacionais que fomentaram o desenvolvimento de revisores ortográficos e gramaticais para o português. Suas origens remontam a um projeto realizado por pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP sob demanda de uma grande empresa de tecnologia brasileira já extinta, a Itautec, ainda nos primeiros anos da longínqua década de 1990.

Os direitos de uso e comercialização da ferramenta de revisão automática foram adquiridos posteriormente pela Microsoft e adicionados ao Word. Naquele tempo, o que a Itautec queria era oferecer aos clientes o inovador revisor ortográfico e gramatical para o português por meio de disquetes, um disco de armazenamento magnético fino e flexível que hoje é uma espécie de artefato pré-histórico (quem ainda lembra disso?), mas que fez um tremendo sucesso de meados de 1970 até o começo dos anos 2000.

Uma língua para as máquinas

Estudar os primórdios do revisor automático do Word lança luz sobre as origens do campo da inteligência artificial. Muitos pensam que a área é fruto do desenvolvimento científico e tecnológico recente, já que esse assunto tem alcançado destaque na grande mídia. No entanto, essa concepção é tão equivocada que pode ser comparada às famosas fake news que rondam por aí, para usar uma palavra da moda amplamente empregada para designar outro fenômeno que, apesar de ter algumas características novas, existe há muito mais tempo do que você pode imaginar.

É claro que há diversos recursos e aplicações de inteligência artificial que só foram criados mais recentemente, tendo em vista que os conhecimentos produzidos nesse campo se ampliaram de forma bastante veloz nas últimas décadas. Mas a professora Graça Nunes, do ICMC, explica que o processamento da língua dos humanos foi um dos primeiros terrenos explorados pelos cientistas da computação para além dos horizontes dos cálculos matemáticos:

“A inteligência artificial surge para estudar os sistemas que, de alguma forma, não envolvem só os cálculos numéricos, mas abarcam algum tipo de inteligência, considerando a forma como compreendemos o que é a inteligência humana. Por ser uma tarefa típica dos seres humanos, o processar a linguagem pertence também ao campo da inteligência artificial”.

Já o professor Thiago Pardo, do ICMC, assim define a linguística computacional: “Quando falamos em processamento da linguagem natural, estamos preocupados em habilitar a máquina, o computador, a lidar com a língua humana, tanto no que se refere ao entendimento quanto à produção. São dois lados da mesma moeda: a interpretação e a geração de textos escritos e falados em diferentes línguas. Isso abrange um leque de tarefas, tais como revisão ortográfica e gramatical, compreensão, tradução e sumarização, por exemplo”.

O tipo de conhecimento presente no revisor do Word é também utilizado por mais de 1 bilhão de pessoas quando acessam a ferramenta de correção automática presente no aplicativo WhatsApp. Outro exemplo de como o processamento de linguagem natural está presente no nosso dia a dia é o Siri, um assistente virtual comandado por voz de propriedade da Apple, presente nos iPhones e iPads. Segundo a empresa, quanto mais você usa o Siri, mais ele sabe do que você precisa e quando precisa. Os mesmos princípios de computação presentes no Siri podem ser encontrados em ferramentas como o Google Tradutor e nos chatbots, que são aplicações conversacionais já utilizadas por diversas empresas para atender automaticamente os clientes.

Revisores automáticos de texto são exemplo de aplicação de inteligência artificial – Foto: Marcos Santos/USP Imagens

Um jovem experiente

Aquele projeto proposto pela Itautec no início dos anos de 1990 reuniu cientistas da computação, físicos e linguistas para enfrentarem o desafio de construir uma ferramenta automática destinada à revisão ortográfica e gramatical em língua portuguesa. Foi esse grupo que deu origem, em 1993, ao Núcleo Interinstitucional de Linguística Computacional (Nilc), um grupo multidisciplinar de pesquisa, cuja sede fica no ICMC, na USP.

Para comemorar a marca de 25 anos do Nilc, assim como relembrar o passado, discutir as oportunidades atuais e planejar o futuro, um workshop acontecerá no auditório Fernão Stella Rodrigues Germano, no dia 4 de maio, sexta-feira. Para participar, basta preencher o formulário. Gratuito e aberto a todos os interessados, o evento é uma oportunidade para quem deseja conhecer o processamento da linguagem natural no Brasil, entender os projetos que estão sendo desenvolvidos atualmente e discutir as oportunidades de pesquisa futuras com os professores, pesquisadores, alunos e ex-alunos do grupo. Confira a programação completa.

Hoje, o núcleo conta com pesquisadores de várias instituições, como USP, Unesp, Ufscar e UEM. No total, são 13 professores associados (das áreas de computação, linguística e física), dez pesquisadores colaboradores regulares e cerca de 60 alunos de graduação e pós-graduação: um pós-doutorando, 23 doutorandos, 21 mestrandos e 15 alunos de graduação que atuam em projetos de iniciação científica e de conclusão de curso.

Thiago Pardo (à esquerda) e Graça Nunes na defesa de mestrado de Henrico Brum (ao centro): pesquisa sobre expansão de recursos para análise de sentimentos é um exemplo de estudo em linguística computacional – Foto: Fernando Mazzola/ICMC

Essa equipe tornou o Nilc uma referência para os grupos de pesquisa em processamento de linguagem natural do Brasil. Além de inovar em diversas frentes de pesquisa, o núcleo já estabeleceu colaborações com várias empresas – como Itautec, Microsoft, Samsung e Embrapa, possibilitando a transferência de tecnologia – e com institutos de pesquisa, como o Instituto de Estudos Avançados da ONU, para projetos de grande porte.

Entre as diversas frentes de atuação do Nilc estão projetos para enfrentar desafios científicos relacionados a tradução, ferramentas de auxílio à escrita científica e sumarização – que já são tradicionalmente explorados por quem investiga linguística computacional. Com a expansão da internet e das redes sociais, novas frentes de atuação foram criadas, destinadas, por exemplo, a estudar desafios como a detecção de fake news, a mineração de opinião e o diagnóstico de doenças mentais através da fala, entre muitos outros. Ninguém tem dúvida de que essa história está só começando.

Da Assessoria de Comunicação do ICMC