“Na estatística, as conclusões envolvem sempre uma incerteza”, diz o professor Marcos Magalhães para uma plateia atenta de cerca de 180 estudantes que assistem a sua palestra na tarde do dia 12 de julho, em São Carlos. Para exemplificar, ele conta a história de uma de suas filhas, que, aos 5 anos, enquanto passeavam no lago, perguntou onde ele trabalhava. O pai respondeu: no Departamento de Estatística. A filha logo emendou: “é como descobrir quantos peixes têm no lago, né?”.
Para Marcos, essa imagem do estatístico diante do lago, tentando contar os peixes, é capaz de sintetizar o papel de um estatístico: buscar técnicas e procedimentos para obter as respostas desejadas. Professor do Instituto de Matemática e Estatística (IME) da USP, ele ressalta que contar os peixes de um lago é mais complicado do que contar os que estão no aquário de uma casa.
Imagine, então, estimar a quantidade de animais que existem em todos os oceanos da Terra? “Nesse novo cenário dos grandes bancos de dados, do Big Data, o estatístico precisa ter mais cautela. Como a massa de dados é imensa, quando ele tira suas conclusões, ninguém tem a possibilidade de checá-las. Isso requer que esse profissional aprimore cada vez mais suas possibilidades de reflexão, de analisar as hipóteses e avaliar o que, de fato, pode concluir”, pondera o professor, tomando um café depois do fim de sua palestra, ao lado do anfiteatro Bento Prado Júnior, na Universidade Federal de São Carlos (UFSCar).
Foi nesse anfiteatro que ocorreram as palestras da sétima Semana de Estatística, realizada em parceria por estudantes de estatística do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP e da UFSCar, de 6 a 9 de junho. No último dia do evento, o estatístico Raniere Ramos compartilhou sua trajetória e explicou que sua vida mudou com o sucesso alcançado por meio do blog O Estatístico, destinado a discutir assuntos dessa área do conhecimento de um jeito simples e divertido.
Quando o papo é Big Data, Raniere concorda com o professor Marcos: “ao analisar bancos de dados pequenos, com algumas mil linhas e poucas colunas, eu me dou a oportunidade de me preocupar menos porque é mais fácil encontrar erros e alguém pode checar minhas análises. Já em bancos de dados muito grandes, em que há correlações entre as variáveis, esse trabalho é muito mais complexo, a chance de ter algo errado, é bem maior.” Ele explica que, nesse limiar da era do Big Data, os estatísticos investem de 70 a 80% do tempo limpando, organizando e validando as grandes bases de dados.
Para compreender a complexidade do problema, pense em tudo o que é postado nas redes sociais. Imagine a quantidade de lixo que existe misturado às palavras, números, sons e imagens que realmente podem ser valiosos. Assim, as instituições que querem usar os dados disponíveis nas redes sociais, por exemplo, precisam jogar todo o lixo fora para, só depois, enfrentar o desafio de analisar esse oceano e extrair informações que realmente poderão nortear suas futuras decisões.
Perspectivas promissoras
Se é ponto pacífico que a era do Big Data lança novos desafios aos profissionais que se dedicam a investigar informações em meio aos dados, por outro lado, há controvérsias sobre quem tem mais capacidade para desempenhar esse trabalho. O cargo de cientista de dados pode ser ocupado tanto por um estatístico quanto por profissionais da computação, da engenharia, da matemática, do marketing, entre outros.
“É claro que o estatístico tem uma vocação natural para analisar essesdados”, afirma o professor Marcos. “O estatístico é o profissional mais direcionando para trabalhar com dados e tecnologia. Um estatístico aprender tecnologia é muito mais fácil do que um cara de tecnologia aprender estatística”, assegura Raniere, que é estatístico sênior da Unimed de Santa Catarina.
Talvez seja esse um dos motivos que levam os estatísticos a aparecem sempre nas primeiras posições dos diversos rankings que tentam prever as profissões mais promissoras no futuro. Apenas para citar um exemplo: em ranking divulgado recentemente pelo CareerCast.com, portal norte-americano especializado em empregos, a profissão alcançou o topo entre as 200 carreiras avaliadas. Divulgado anualmente, ele leva em conta demandas físicas, ambiente de trabalho, renda, estresse e perspectivas de contratação.
No entanto, há quem discorde dessa opinião, como o estatístico Guilherme Fernandes, que trabalha na Serasa: “Uma pessoa da área de computação caminha muito bem nesse mundo. Os estatísticos não”. Segundo ele, para processar os grandes bancos de dados, é imprescindível ter conhecimento sobre a computação e suas linguagens de programação.
“Ninguém é dono de uma área de conhecimento. Mas, dentro da computação, os estudantes já adquirem conhecimentos de aprendizado de máquina, inteligência artificial, redes neurais, algoritmos genéticos. Eles têm esses métodos para extrair conhecimento dos dados. Podem não usar todo o ferramental de teoria estatística, mas chegam a resultados similares aos dos estatísticos. Esse é o ponto: você vai por caminhos diferentes, mas quem chegar mais rápido será mais valorizado.”
De volta ao lago
Marcos conta que uma técnica frequentemente empregada para a contagem de peixes no lago é a captura e recaptura. É um método bem simples: alguns peixes são capturados, marcados e colocados de volta no lago. Aguarda-se certo tempo e captura-se novamente uma amostra de peixes no mesmo local. Por meio da análise do número de animais marcados recapturados, os estatísticos conseguem estimar a quantidade de peixes que há no lago: “Observe que, por conta da aleatoriedade, você está sempre sujeito ao erro”.
Considerando a escala de um lago, a técnica da captura e recaptura alcançará resultados com um nível aceitável de precisão. No entanto, se pensarmos em quantos peixes existem em todos os oceanos da Terra, é evidente que não será possível empregar a mesma técnica estatística.
É por isso que, no universo de grandeza dos oceanos, que pode ser comparado ao mundo do Big Data, os estatísticos precisam das ferramentas computacionais para desenvolver novas técnicas e métodos a fim de obter respostas satisfatórias a perguntas como: em qual série a Netflix deve continuar investindo? Como podemos melhorar os serviços públicos de transporte, de saúde e de justiça?
Um caso de sucesso nesse sentido foi o trabalho realizado por Anne Milgram nos Estados Unidos. Quando ela se tornou procuradora geral de Nova Jersey, descobriu que sua equipe não sabia quem estavam colocando na prisão e não possuíam meios para entender se suas decisões estavam realmente deixando a população mais segura.
Na palestra Por que as estatísticas inteligentes são a chave para combater o crime, realizada no TED@BCG em São Francisco (disponível neste link), Anne relata sua jornada para tornar o sistema de justiça criminal dos norte-americanos mais eficiente por meio da utilização de dados e análises estatísticas rigorosas.
De acordo com Anne, dos 12 milhões de detenções realizadas por ano nos Estados Unidos, menos de 5% correspondem a crimes violentos e 67% das pessoas que saem da cadeia voltam a ser presas. “Decidi buscar uma ferramenta de dados e análises para avaliação de risco, algo que permitiria aos juízes entenderem, com base científica e objetiva, qual é o risco apresentado pelo réu a sua frente”, diz na palestra.
Para possibilitar que os crimes violentos sejam punidos e evitar que as cadeias norte-americanas fiquem abarrotadas por pessoas que não precisariam estar lá já que não oferecem risco à sociedade, Anne tem uma solução: “Devíamos pegar essas avaliações de risco por dados e combiná-las com o instinto e a experiência dos juízes para nos guiar a tomar decisões melhores”.
O trabalho de Anne é citado em um dos muitos textos que Raniere disponibiliza no blog O Estatístico. Recentemente, Raniere participou de uma reunião para discutir como os dados abertos da cidade de Joinville poderiam ser utilizados para melhorar a gestão na área de saúde: “será que os recursos estão sendo destinados de forma correta? Verificando a demanda na saúde, quais são os lugares mais indicados para instalar um novo posto de saúde? Não conseguiremos achar as respostas para essas perguntas se não olharmos os dados.”
Segundo ele, só agora as instituições e empresas brasileiras estão começando a acordar para a era do Big Data. “Os dados brutos são o novo dinheiro das empresas. Se elas não souberem o que esses dados significam, não saberão para onde ir e vão quebrar”, profetiza Raniere.
Ele cita exemplos de empresas que estão coletando dados em tempo real como o metrô de Santiago, em que a tarifa não é fixa, mas se altera de acordo com a demanda. O Uber também segue essa política do preço dinâmico, nos momentos do dia em que a população mais solicita o serviço, o custo da locomoção aumenta: “Tem que existir uma boa tecnologia para analisar dados não estruturados em tempo real e não são todas as empresas que têm condições de fazer isso hoje. Mas é algo cada vez mais comum, até aeroportos já estão usando esses dados para controlar o fluxo aéreo”.
Raniere diz que as principais questões que as empresas estão tentando responder ao olhar para a imensidão de dados existentes em seus sistemas e nas redes sociais é: quem são meus clientes? Como eles se comportam? Será que o produto oferecido é adequado? Essas perguntas aparentemente simples têm feito muitos pesquisadores perderem noites de sono para respondê-las estatisticamente.
“Fundamental nessa área é a construção de modelos estatísticos que possam refletir com maior precisão a história e o perfil dos clientes. Esses modelos não são triviais devido ao tamanho dos bancos de dados”, explica Josemar Rodrigues, professor aposentado do ICMC.
Na apresentação que ele fez durante o 5º Workshop de Métodos Estatísticos e Probabilísticos, realizado em fevereiro no Instituto, Josemar abordou os desafios metodológicos que há para as empresas conhecerem quem são seus clientes e o que eles vão fazer no futuro.
“A maioria dos modelos que existem nessa área supõe que o número de vendas de um produto para cada cliente segue uma lógica pré-determinada, que não leva em conta o padrão real de dispersão de compras ao longo do tempo. Nesses modelos tradicionais, só se considera o instante em que o cliente faz a compra”.
Josemar explica que a informação sobre o instante da compra não é suficiente para avaliar quanto tempo o cliente ficou interessado por um produto ou serviço e muito menos para identificar a probabilidade desse cliente realizar futuras compras. Durante sua apresentação, o professor evidenciou que os pesquisadores têm buscado construir modelos mais flexíveis e citou como exemplo o trabalho Bridging the Gap: A Generalized Stochastic Process for Count Data.
Partindo para florestas e oceanos
Será que esses novos modelos estatísticos permitirão à humanidade escutar o som da extinção surgindo no interior de uma floresta? Soa como uma questão típica dos filmes de ficção científica, mas esse é o objeto de estudo de Diego Carvalho do Nascimento, doutorando do Programa Interinstitucional de Programa Interinstitucional de Pós-Graduação em Estatística (PIPGEs).
Orientado pelo professor Francisco Louzada, do ICMC, Diego está trabalhando em conjunto com pesquisadores da área de computação nas gravações realizadas na estação de pesquisa biológica La Selva, na Costa Rica. Durante o 5º Workshop de Métodos Estatísticos e Probabilísticos, Diego apresentou o projeto Wilcoxon test for transformation on soundscape: a feature extraction task no formato de pôster.
O trabalho analisou gravações que foram realizadas de 6 de março a 20 de abril de 2015 na selva. A cada 15 minutos, os pesquisadores da Costa Rica gravaram um minuto dos sons de La Selva, o que gerou 3.061 gravações, totalizando mais de 8 mil minutos. “Em 30 segundos de gravação podemos escutar pássaros, grilos e até um cachorro. Porém, quando começa a chover, não conseguimos ouvir mais nada. Então, antes de analisar, precisamos fazer uma limpeza nos sons, pré-processar os dados, tirar o som da chuva e separar o que é o som de cada animal.”
Se os pesquisadores obtiverem sucesso nessa verdadeira limpeza sonora, a técnica estatística desenvolvida poderá ser aplicada tanto para sondar o possível desaparecimento de uma espécie quanto, por exemplo, para aprimorar a segurança pública. Imagine se o disparo de uma arma de fogo em uma cidade pudesse ser ouvido em tempo real pelas forças de segurança? Isso seria viável se o som pudesse ser identificado automaticamente a partir da exclusão de outros barulhos do ambiente urbano (carros, motos, vozes, etc.). “A ideia é usar essa técnica também para estudar sons subaquáticos que estão sendo captados na Bacia de Santos. Por meio desses áudios, queremos avaliar a quantidade de baleias que habitam a região e reconhecer quantas são machos, fêmeas, jovens e adultos”.
Nesse momento, até parece que os oceanos da realidade se aproximam dos filmes de ficção. Não é difícil imaginar esse novo modelo estatístico identificando a existência de vida em outros planetas a partir da captação de sons. Porém, antes que isso aconteça, caro leitor, há muitos dados na Terra que precisarão ser estudados. “O mundo está se tornando um mundo de dados. Acredito que todos nós, no futuro, seremos pessoas capazes de analisar dados. Se o mundo está se tornando digital, por que você não vai se tornar analítico?”, finaliza Raniere.
Denise Casatti / Assessoria de Comunicação do ICMC