Inteligência artificial que prevê interações entre proteínas pode agilizar pesquisas

Baseado em aprendizado de máquina, programa otimiza trabalhos de biólogos e colabora no estudo de processos como infecções virais, em que conhecer a interação entre proteínas do vírus e das células é fundamental

 Publicado: 13/01/2025 às 8:00

Texto: Fernanda Zibordi*

Arte: Simone Gomes

As proteínas são formadas por longas sequências de aminoácidos e fazem parte de reações importantes no organismo humano – Foto:  National Institute of Allergy and Infectious Diseases, NIH – Flickr/Fonte: National Institute of Allergy and Infectious Diseases, NIH – Flickr.</a>

Uma ferramenta de inteligência artificial desenvolvida por aluno do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP é capaz de prever interações entre proteínas. Bruno Rafael Florentino realizou em seu trabalho de conclusão de curso (TCC) um projeto que facilita o trabalho de biólogos que estudam interações proteicas, otimizando e reduzindo o tempo desses profissionais em laboratório.

Proteínas atuam nas mais variadas funções do organismo humano, além de serem estruturas importantes em outros processos, como infecções virais. “A cápsula de um vírus infecta as nossas células por uma interação da proteína viral com a proteína da membrana celular”, explica Bruno Florentino. O vírus da covid-19, por exemplo, fazia isso usando a proteína spike em receptores ACE-2, proteínas da superfície de células humanas. O BioPrediction-PPI automatiza análises de possíveis interações entre proteínas sem a necessidade do usuário ter conhecimentos aprofundados em programação. Isso pode ser útil em aplicações diversas nas pesquisas – inclusive para identificar rapidamente quais proteínas virais interagem com quais humanas no caso de um novo vírus que pode ser uma ameaça de epidemia.

Formado em Ciências Físicas e Biomoleculares, o atual aluno de doutorado no ICMC foi o primeiro sul-americano a receber a medalha de ouro Thomas Clarkson no Global Undergraduate Awards de 2024. O prêmio reconhece os melhores TCCs feitos no ano, e Bruno Florentino venceu na categoria de Ciência da Computação. Seu trabalho também resultou num artigo científico publicado no Computational and Structural Biotechnology Journal sobre o uso da ferramenta para previsão de interações entre RNA não codificado e proteínas (BioPrediction-RPI).

Homem adulto de cabelos escuros e curtos, com bigode e barba curta. Usa óculos e um terno escuro. Está olhando para frente e sorrindo.
Bruno Rafael Florentino - Foto: Arquivo pessoal

Automatização de ponta a ponta

Algoritmos de aprendizado de máquina precisam de dados bem estruturados para funcionar. Pelo fato de o RNA e das proteínas serem normalmente identificados por extensas sequências de letras, a conversão dessas informações em dados numéricos exige um conhecimento técnico que profissionais de ciências biológicas podem não ter. O autor conta que uma das funcionalidades da ferramenta é a “extração automática de características”, de forma que um biólogo não precise estudar assuntos tão específicos para realizar as previsões.

O BioPrediction deve ser, primeiramente, alimentado por informações de interações proteicas conhecidas, que vão ser usadas para treinar o modelo. Com a entrada das sequências de letras, cada molécula será descrita em uma sequência de números específica, como um código. A partir disso, a ferramenta extrairá as características mais relevantes das estruturas, organizando-as em grandes categorias – como frequência de aminoácidos ou nível de entropia (grau de desordem das partículas de um sistema). 

“Para cada tipo de característica, ele treina um modelo parcial, e cada modelo é treinado para decidir se ocorrem ou não interações entre as moléculas”, afirma o pesquisador. Por meio da combinação de várias decisões é gerada uma decisão final baseada nos resultados em maioria. Por fim, há a produção de um relatório que mede a performance do modelo, retornando ao usuário explicações que facilitam o entendimento do processo.

O trabalho de Bruno tem destaque no campo da biotecnologia ao propor a construção de um aprendizado de máquina considerado de ponta a ponta, ou seja, completamente automatizado. Sem a necessidade de programação adicional, o cientista é capaz de obter, de forma simplificada, a previsão de possíveis reações entre proteínas, reduzindo a quantidade de combinações possíveis e poupando tempo com experimentos em laboratório.  Além disso, a ferramenta oferece alternativas a pesquisadores com poucos investimentos.

“O usuário só precisa entrar com o dado, ainda não estruturado, para o algoritmo ser capaz de extrair características, selecionar quais são as melhores características, treinar e refinar o modelo para, assim, retornar para o usuário o modelo preditivo final” – Bruno Rafael Florentino

Com a possibilidade de inserção de novos dados e adequação do programa a diferentes modelos, o BioPrediction traz a inovação de ser ajustado ao contexto do pesquisador. Bruno Florentino dá o exemplo de um estudo sobre certa família de vírus: “Eu posso usar as interações conhecidas desta família para predizer um novo membro que eu não entendo. E isso é bom porque, caso contrário, talvez eu tivesse que usar um modelo de predição de proteínas humanas ou de bactérias ou de plantas”. Isso quer dizer que o usuário pode criar um formato de análise específico para a família de vírus que ele está estudando, sendo isso uma melhor opção do que usar um modelo genérico e não validado para esse problema.

IA e epidemias

O desempenho da ferramenta preditiva foi avaliada a partir de experimentos e se o modelo mostrou-se competitivo em relação a outros especializados em aprendizado de máquina. André Ponce de Leon Ferreira de Carvalho, diretor do ICMC e orientador do trabalho, comenta que a extensa validação foi um aspecto central da pesquisa, pois a solução “foi amplamente comparada ao que já existia na literatura, uma evidência forte da inovação”. Bruno Florentino utilizou mais de dez bases de biologia disponíveis e comparou seu modelo com mais de 20 outras ferramentas.

Um dos experimentos foi a previsão de interações entre proteínas do vírus Influenza A a partir de 15 mil pares possíveis. O BioPrediction foi capaz de reduzir esse número para 1.265 interações prováveis, sendo que 75% eram de fato verdadeiras – indicando que o modelo acertou três em cada quatro predições.

imagem do vírus influenza, em azul, em um fundo bege
Imagem do vírus Influenza A (H3N2), que é um dos principais patógenos responsáveis por gripes comuns e resfriados, afetando principalmente crianças e idosos - Foto: NIAID/NIH/Flickr  /Fonte: NIAID/NIH/Flickr

Além de democratizar o acesso da computação a profissionais de ciências biológicas, a pesquisa colabora no estudo de sistemas imunológicos frente a agentes que causam doenças. Ela está associada ao Projeto AutoAI-Pandemics, que desenvolve ferramentas de inteligência artificial para acelerar estudos em biologia molecular potencialmente relevantes para o combate a epidemias.

André Carvalho explica que o programa pode auxiliar o entendimento de infecções virais de forma mais rápida e com menos necessidades de testes de interações proteicas. Para o professor, isso aceleraria os estudos sobre epidemias e ajudaria no desenvolvimento de alternativas para salvar vidas ou reduzir consequentes danos ou sequelas.

“Se aparecer um novo vírus, queremos estar com uma ferramenta que seja capaz de descobrir, em menos de 24 horas, quais proteínas virais interagem com quais proteínas humanas. Isso é para entendermos sobre o processo de infecção e já saber a partir de qual proteína temos que desenvolver uma vacina ou um remédio”, conclui o Bruno.

O artigo BioPrediction-RPI: Democratizing the prediction of interaction between non-coding RNA and protein with end-to-end machine learning, resultante do trabalho de conclusão de curso, pode ser lido aqui.

Mais informações: e-mail brunorf1204@usp.br, com Bruno Rafael Florentino

*Estagiária sob orientação de Luiza Caires e Fabiana Mariz e com informações do ICMC


Política de uso 
A reprodução de matérias e fotografias é livre mediante a citação do Jornal da USP e do autor. No caso dos arquivos de áudio, deverão constar dos créditos a Rádio USP e, em sendo explicitados, os autores. Para uso de arquivos de vídeo, esses créditos deverão mencionar a TV USP e, caso estejam explicitados, os autores. Fotos devem ser creditadas como USP Imagens e o nome do fotógrafo.