Simplificação de modelos de aprendizado de máquina pode reduzir custos computacionais

Ferramenta desenvolvida por pesquisador da USP utiliza algoritmos com fluxos de dados em tempo real para otimizar grandes processamentos de dados

 Publicado: 15/10/2024 às 17:07     Atualizado: 01/11/2024 às 19:26

Texto: Fernanda Zibordi*

Arte: Beatriz Haddad**

Pesquisadores e profissionais sem acesso a computadores super potentes podem se beneficiar na área de análise de dados que são continuamente gerados ao utilizar modelos que se ajustam automaticamente a mudanças – Foto: Freepik

Leia este conteúdo em InglêsO uso de inteligência artificial (IA) para otimização de sistemas digitais se faz cada vez mais presente com o crescimento acelerado da produção de dados. Algoritmos empregados na criação desse tipo de tecnologia precisam ter a capacidade de processar grandes volumes de dados e não gerar um custo excessivo dos recursos computacionais. Defendida no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP em São Carlos, a pesquisa de doutorado Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade colaborou para a criação de uma ferramenta que simplifica a implementação de algoritmos de aprendizado de máquina on-line. A pesquisa tem vínculo com o Centro de Pesquisa, Inovação e Difusão do Centro de Ciências Matemáticas Aplicadas à Indústria (Cepid-CeMEAI), que promove a transmissão de tecnologias e conhecimentos científicos para o ambiente industrial.

Diferentemente do aprendizado de máquina tradicional, área de IA em que o modelo é treinado a partir de uma base de dados isolada, o aprendizado de máquina on-line é um método incremental que lida com fluxos de dados em tempo real. “Existem cenários em que você precisa tanto estar atualizado quanto atualizar seu modelo”, diz Saulo Martiello Mastelini, cientista computacional e autor da tese de doutorado.

Ferramentas de vigilância, diagnósticos médicos, transações financeiras e detecção de fraudes são casos que podem se beneficiar de sistemas que adaptam seus algoritmos conforme a inserção de novos dados. Porém, isso não vem sem custos. Saulo explica que o processamento de ambientes ricos em dados sob constante mudança é lento e utiliza alta capacidade de memória. “Talvez eu consiga rodar em um computador normal, mas em um pequeno sensor que está no meio de uma floresta e funcionando à bateria, isso pode não ser eficiente”, destaca.

Saulo Martiello Mastelini - Foto: Linkedin

A pesquisa buscou soluções capazes de otimizar esses processamentos, diminuindo os custos computacionais e, ao mesmo tempo, mantendo um bom desempenho preditivo, ou seja, a propriedade de prever eventos futuros com base nos dados disponíveis. O estudo se concentrou nos modelos de regressão: algoritmos que trabalham com valores numéricos e se diferem dos modelos de classificação, que atuam em valores categorizados.

“Em geral, os algoritmos de regressão tendem a ser mais desafiadores na manipulação de dados pela natureza do problema. Quando você vai prever se é um gato ou um cachorro, você tem duas opções. Agora, se você vai prever, por exemplo, uma temperatura, são infinitas possibilidades”, diz o pesquisador do ICMC ao explicar a maior complexidade do modelo estudado.

A tese também investigou, dentro do cenário de regressão, o uso das chamadas árvores de decisão. Elas são um importante tipo de algoritmo usado em aprendizado de máquina, já que são versáteis e visualmente intuitivas. Formadas por nós de decisão e ramos, as árvores apresentam um fluxo de hierarquia ao lidar com os dados: partem de um nó-raiz, o estágio inicial do processamento, para chegarem em um nó-folha, que seria a previsão final gerada como resposta.

Com uma estrutura de fácil visualização, as árvores de decisão podem ser usadas tanto para algoritmos de classificação quanto de regressão, fazendo com que uma base inicial de dados gere um valor final através da passagem por nós que estabelecem regras de decisão – Ilustração Jornal da USP feita com imagens de juicy_fish/Freepik, Freepik e macrovector/Freepik

Simplificação de modelos

Além do desenvolvimento de modelos de processamento mais eficientes e menos custosos,o trabalho também contribuiu para a criação da ferramenta River, uma biblioteca que simplifica a aplicação de algoritmos de aprendizado de máquina on-line. Modelado na linguagem de programação Python, o software é uma colaboração entre vários pesquisadores e feito em código aberto, de forma que qualquer pessoa tenha acesso ao código fonte para uso, investigação e modificação com novos recursos.

Já aplicado tanto na indústria quanto na academia, o River reflete as intenções do estudo feito por Saulo. De acordo com André Ponce de Leon Ferreira de Carvalho, diretor do ICMC e orientador da tese, as propostas dela democratizam o uso da IA, já que permitem que “grupos de pesquisa e empresas com menos recursos possam realizar pesquisas e desenvolver produtos para aplicações em que dados são continuamente gerados”.

Pelo potencial de impacto na sociedade, a pesquisa defendida ano passado foi vencedora no 37º Concurso de Teses e Dissertações do Congresso da Sociedade Brasileira de Computação (CSBC), um dos mais importantes do país na área de Computação. Também ganhou a primeira edição do Prêmio Maria Carolina Monard, honraria criada pelo ICMC que prestigia teses de doutorado relacionadas à inteligência artificial.

A tese Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade pode ser lida aqui.

Mais informações: e-mail saulomastelini@gmail.com, com Saulo Martiello Mastelini.

*Estagiária sob supervisão de Tabita Said

**Estagiária sob supervisão de Moisés Dorado


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.