Diversidade na cultura algorítmica contra o circundante deterioramento da informação

“Valores e desejos expressos nos dados que selecionamos influenciam nossas escolhas, ou seja, os modelos são opiniões incorporadas em Matemática. A questão é se eliminamos o viés humano ou o camuflamos com tecnologias” (Cathy O’Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy)

Temos visto em variadas áreas que investir em diversidade – por exemplo de equipes de desenvolvimento, consequentemente de pensamento — é fundamental para melhor entender as complexidades sociais e culturais e, assim, considerar a pesquisa transcultural com as características pessoais que são imutáveis, tais como: etnia, gênero, idade, e ainda, cultura, tradição e religião, no desígnio em adequar condições para atender a própria diversidade das pessoas, dados e objetos. Parece axiomático, mas infelizmente é preciso dizer dessa multiplicidade com todas as letras etc. Aqui ipsis litteris: e tantas coisas.

Vamos nos ater à área da inteligência artificial (IA) cuja evolução, digamos responsável (para ficarmos no propósito dos últimos anos), presume certo controle de seus atos e, por tabela, das informações e dos dados sobre a transparência envolvida — algo insistentemente solicitado (porque nem se pode exigir) e, de maneira taxativa, não atendido. A alegação é sigilo comercial.

Portanto, nem pensar em rastrear e auditar as práticas (com entrada manual ou automatizada); as previsões, a partir de dados históricos; as recomendações personalizadas e, em especial, as decisões dos algoritmos de aprendizagem de máquina de abordagem estatística — induzindo determinada tendência por conta dos padrões (nem sempre os melhores) — a influenciar o estado da arte e o cotidiano figital (físico e digital). No fundo, nas construções políticas e sociais, a razão de ser das plataformas, em relação ao uso dos dados, é fazer previsões e tomar decisões. O problema seria do gradiente do discernimento ético, cruzamento de dados, responsabilização algorítmica, incorruptibilidade, ou explicabilidade? Esquece!

As tomadas de decisões sempre são baseadas em informações, desde a era analógica. Hoje, claro, com a magnitude do big data e sua consequente análise, a base tende a ser mais (não totalmente) assertiva, uma vez que pode chegar a conclusões erradas. Pense em redes recorrentes quando autocompletam informações.

Ao tratar de métricas de interesse, algoritmos de otimização de decisões “podem amplificar o impacto de seus usuários, independentemente da natureza de sua intenção”, é o que considera Di Felice, em A cidadania digital. Atualmente isso inclui fazer engenharia reversa dos algoritmos que determinam tantas decisões, seja nas redes sociais, nas empresas ou nos governos.

É complicado promover uma mudança coletiva justa e apoiar a diversidade social e econômica. Os sistemas necessários para sustentar nossas vidas dependem cada vez mais de algoritmos para funcionar, mas é bom frisar que os padrões específicos pelos quais as informações são excluídas ou incluídas nos bancos de dados e depois gerenciadas de maneiras particulares são reminiscências dos debates do século 20. Trata-se de discussões sobre as formas em que as decisões — um derivado de aprendizado de máquina — feitas pela mídia comercial, sobre o que deve ser sistematicamente deixado de fora e quais categorias de fala simplesmente não se qualificam, podem moldar a diversidade e o caráter do discurso público.

De modo geral, por intermédio de lentes críticas, é bom recuperar o que diz Lev Manovich, em 100 Billion Data Rows per Second: “Observar e analisar a cultura significa ser capaz de mapear e medir três características fundamentais”, ou seja, “diversidade, estruturas (por exemplo, redes de clusters e outros tipos de relações) e dinâmicas (mudanças temporais)”. Ele lembra que “O desenvolvimento de medidas apropriadas de diversidade cultural, estrutura, dinâmica e variabilidade para diferentes tipos de mídia e os campos culturais são em si uma grande tarefa teórica e prática”. O autor vê isso como “a tarefa central para a Cultural Analytics nos próximos anos”.

Por outro lado, depende da ideia de que algoritmos “são objetos distintos que podem ser localizados em contextos culturais ou trazidos para uma conversa com questões culturais”, previne Seaver, em Algorithms as culture, ao continuar nos dizendo que, uma vez entendidos como tais objetos, os algoritmos, em si, não são cultura. Eles podem tanto moldá-la — modificando os fluxos de material cultural —, quanto serem moldados por ela, incorporando os preconceitos de seus criadores.

Não é de hoje essa preocupação com a diversidade, mas persiste e necessita envolvimento cívico no mundo da tecnologia. Já dizia Safiya Umoja Noble, no livro Algorithms of Oppression: How Search Engines Reinforce Racism: “O que encontramos nos mecanismos de busca sobre pessoas e cultura é importante. Eles simplificam a compreensão e podem mascarar a história (…) Os resultados da pesquisa, no contexto de empresas de publicidade comercial, estabelecem as bases para viés implícito”. Vieses em termos de desequilíbrios e desigualdades.

Noble escreve de maneira convincente como os diferentes métodos pelos quais os mecanismos de busca curam os resultados (por frequência de visualizações, número de links que levam a uma página, publicidade por empresas para promover páginas), privilegiam interesses baseados no mercado e preconceitos sociais discriminatórios. Acabam se perpetuando intencionalmente ou não.

Olhar microscópio teve Barbara Grosz, membro do comitê de direção do AI Index. Ao ver o relatório de 2021, conjecturou ser encorajador “um compromisso com o exame de questões de diversidade no campo, se for para produzir sistemas que funcionem para toda a sociedade, e o sucesso requer que a comunidade de pesquisa e a indústria coletem e analisem dados que acompanhem o progresso”. O relatório deixa evidente, no entanto, “a falta de dados disponíveis de instituições acadêmicas, sociedades científicas e da indústria sobre a diversidade das comunidades de pesquisa e indústria de IA — de estudantes, cientistas e profissionais”.

O relatório de 2021 traz que diversificar “a força de trabalho de IA é fundamental para evitar as perspectivas estreitas e vieses não intencionais que podem prejudicar o desenvolvimento e o uso de sistemas de IA”, sistemas que “estão se tornando onipresentes em áreas que vão desde finanças e saúde até a aplicação da lei e o sistema judicial”. A eficácia “dependerá de vigilância, mentores que entendam como apoiar aqueles que parecem diferentes de si” e “talvez o mais importante — líderes comprometidos que veem a diversidade como um imperativo de negócios em vez de uma reflexão tardia”. Equilibrar deveria ser, probabilisticamente, a próxima palavra.

“Os sistemas de IA precisam funcionar para todos na sociedade; esse é apenas um valor ético importante”, afirma Grosz. Eles precisam trabalhar para as pessoas que vêm de outras culturas. É preciso ter todas essas pessoas na sala. Pessoas negras, brancas, indígenas, cis, transgênero, pobres, ricas e, ainda, de todas as idades. “Esse é apenas um valor ético importante. Elas precisam fazer parte do design e do pensamento”, afirma Grosz. Afinal, algoritmos não são meros cálculos matemáticos e estão se tornando cada vez mais automatizados de maneiras que impactam todos nós. Bom lembrar que ensinamos tudo aos sistemas de IA, incluindo nossos preconceitos.

Cathy O’Neil conjectura que: “Modelos são opiniões embutidas em Matemática”. Mas a própria matemática traz o questionamento: como raciocinar com informação incerta e imprecisa? “Em cada caso, devemos nos perguntar não somente quem desenhou o modelo, mas também o que aquela pessoa ou empresa está tentando alcançar”, afinal, diz ela: “[…] os modelos, apesar de sua reputação de imparcialidade, refletem objetivos e ideologias”.

Dados enviesados infestam a cultura algorítmica e não o contrário

Afora a plausibilidade de algoritmos preditivos de IA para dar diagnósticos precisos e melhorar (sim, às vezes, melhora) a vida das pessoas, é necessário ressaltar que tais classificações preditivas também criam vieses, por estarem baseadas em padrões, muitas vezes, já discriminatórios e/ou intolerantes. De modo geral, o viés está ligado à falta de representatividade, principalmente intercultural.

Ataques de viés algorítmico também poderiam ser usados para avançar com mais facilidade as agendas ideológicas, ressalta Karen Yeung, em Algorithmic regulation: A critical interrogation, que acrescenta: “Se os grupos de ódio ou as organizações de defesa política quiserem segmentar, ou excluir pessoas com base em raça, sexo, religião ou outras características, os algoritmos tendenciosos poderiam fornecer a justificativa ou meios mais avançados para fazê-lo diretamente”, sem contar a propagação do medo, em muitos casos. Quando nos deparamos com algoritmos de gênero, raciais etc. potencializando estereótipos discriminatórios é de revirar os olhos!

A lista para perseguição é imensa e não há respostas pontuais e significativas às crises, por isso o importante é saber para o que serve esse conjunto de dados e como ajuda (ou mesmo atrapalha, quando existe o viés [inapropriado]) no treinamento do programa algorítmico. Para que, desta forma, além da otimização e do ganho da rapidez, ocorram a manipulação e o controle social em um grau jamais visto no espaço numérico como agora.

“Injetar parcialidade deliberada na tomada de decisão algorítmica pode ser devastadoramente simples e eficaz. Isso pode envolver a replicação ou aceleração de fatores pré-existentes que produzem viés”, observa Yeung. Muitos algoritmos já são alimentados com dados tendenciosos. Os atacantes poderiam continuar a usar esses conjuntos de dados para treinar algoritmos, com o conhecimento prévio do viés que neles continham. A negação plausível que isso permitiria é o que torna esses ataques tão insidiosos e potencialmente eficazes.

“Os agressores iriam surfar as ondas de atenção treinadas em preconceitos na indústria de tecnologia, exacerbando a polarização em torno de questões de diversidade e inclusão”, completa Yeung. É importante trazer o texto dos princípios de IA sobre impacto social da Academia de Inteligência Artificial de Pequim, quando afirma que o desenvolvimento da IA “deve refletir a diversidade e a inclusão e ser projetado para beneficiar o maior número possível de pessoas, especialmente aquelas que seriam facilmente negligenciadas ou sub-representadas nos aplicativos de IA” (Ethics Guidelines for Trustworthy AI European Commission). Ainda: “Encoraja-se o estabelecimento de plataformas abertas de inteligência artificial para evitar monopólios de dados ou plataformas”. Evitar esses monopólios é a aspiração na qual a discussão esquenta pelo mundo antes de atingir o ponto de estrangulamento.

Apesar do mito comum de que a IA e os dados que ela utiliza classificam e codificam o mundo de forma objetiva e científica, na reflexão acertada de Crawford e Paglen, em Excavating AI: The Politics of Training Sets for Machine Learning, em toda parte “há política, ideologia, preconceitos e todas as coisas subjetivas da história. Quando examinamos os conjuntos de treinamento mais amplamente usados, descobrimos que essa é a regra e não a exceção” e afirmam ainda: “Os conjuntos de dados não são simplesmente matérias-primas para alimentar algoritmos, mas são intervenções políticas”. Como tal, “grande parte da discussão em torno do ‘viés’ em sistemas de IA erra o alvo: não há ponto de vista ‘neutro’, ‘natural’ ou ‘apolítico’ sobre o qual os dados de treinamento possam ser construídos”. Lembrando sempre que o esquema é de autocalibragem contínua.

Mesmo sabendo que o campo de pesquisa e desenvolvimento da IA deve adotar abordagens éticas de design para tornar o sistema confiável, a operação e o impacto dos sistemas de segmentação online são opacos.

Se quem recolhe, humano ou drone, monta questionários, entrevista os dados, etiqueta tudo e programa os algoritmos com seleção fina de dados está inserido em uma equipe com diversidade, esta consegue atender todo o tipo de pessoa. Isso é algo que devemos persistir na exigência, para ao menos reduzir o viés preconceituoso, pois não dá para culpar a cultura, simplesmente. Não dá para permanecer em tamanha opacidade algorítmica, mas também sabemos que os proprietários não têm o menor interesse em abrir a caixa-preta deles. Por que raios a abririam? Em última análise, diminuir o fornecimento dos dados poderá ajudar a conter a espionagem, o treinamento para previsões, tanto quando usados negativamente, como para fins propagandísticos e de modulação do pensamento alheio.

Adendo: a expressão caixa-preta é usada em cibernética sempre que uma máquina ou um conjunto de comandos se revela complexo demais. Em seu lugar, é desenhada uma caixinha-preta, a respeito da qual não é preciso saber nada, a não ser o que nela entra e o que dela sai.

As consequências desfavoráveis, como incidentes nos quais os algoritmos ampliam preconceitos sociais como racismo, misoginia, homofobia etc., merecem que se tirem do esquecimento para assegurar reflexão crítica e precaução permanente. A tecnologia da informação remodela a sociedade em modo contínuo e no seu guarda-chuva está o exemplo da criação de perfis e os subsequentes agenciamentos por algoritmos de aprendizado de máquina. Ao monitorar as ações, estes instrumentos modificam a si e, sob paralelismos de informações, filtram conteúdos para os perfilados, introduzindo vieses, propagando-os ou, em dribles de regras de IA, eliminando-os.

Vale ficar atento para, quando for possível, deixar de lado as zonas cinzentas que pairam nas ciências sociais computacionais. Se aproveitarmos o melhor dos dois: do humano e da máquina que adquire postos de dimensões sociais, é plausível gerar benefícios plurais, em uma atuação human-in-the-loop, na qual humanos podem influenciar diretamente ou alterar as decisões tomadas por uma solução com IA e, por vezes, gerar resultados baseados em critérios ideológicos.

Não somos livres de influências, afora o que nos apontam nossas câmaras de eco. Porém, enquanto o viés de confirmação é um modo direto, mesmo automático, de percepção de dados que atestem crenças incrustadas, o raciocínio motivado é a tendência complementar de examinar com olhos abertos as ideias das quais não gostamos.

Os sistemas de aprendizado de máquina precisam do auxílio de algoritmos com seus procedimentos sequenciais e dependem de seus criadores/desenvolvedores humanos. Estas pessoas estão, sujeitas a vieses tendenciosos das mentes delas, para tomar decisões determinantes e, como sabemos, isso é refletido e causa impacto no preconceito e na discriminação. Logo, ao se montar uma equipe para desenvolver uma IA, é crucial que se inclua os elementos da diversidade humana, cultural e de sistemas. Assim, é essencial considerar as iniciativas em salvaguardar diversidade, equidade e inclusão e também os fatores como idioma e nacionalidade em certos grupos que tendem a ser sub-representados. Isso vai contribuir para garantir pontos de vista diversos, nos quais outras culturas, perspectivas, experiências e visões de mundo sejam considerados — afinal, a diversidade em IA é uma questão universal, com preocupações éticas e de justiça e consequências para todas as pessoas, o que pode ser perigoso, porque fica incompleto, com resultados imparciais. Sobretudo carece de contexto e consciência cultural e ainda problemas ou desafios de determinados grupos de pessoas podem ser eliminados sistematicamente.

Enquanto aguardamos a evolução do capitalismo de dados em percurso de tentativas e erros das máquinas, ao polling de aprendizado de máquina, IA simbólica, algoritmos de processamento de linguagem natural, one-shot learning etc., sabemos que lançam mão de um esquema de estruturação com ajustes (se houver necessidade). Para tanto, com princípio de consciência, o trajeto exige interpretação da inferência de modelos no intuito de revelar uma amostra da complexidade do mundo real diverso — por vezes contraditório — e de forma otimizada, auxiliar as máquinas a chegarem a decisões similares às humanas, mesmo sabendo que a saída dos resultados das máquinas também reproduz os conceitos e preconceitos humanos. Tentativas de minimizar os riscos de mau uso da IA é fortemente recomendável tanto quanto repor — e até mesmo defender — a expressividade invisibilizada.

Na persecução dos rastros deixados pelos dados dos actantes (com ou sem permissão), a Cartografia da Controvérsia proporciona transparecer a extensão abarcada de redes encadeadas, transbordando classificações maquínicas de dados muitas vezes desequilibrados e enviesados, aliás, como espelho dos próprios preconceitos da sociedade, em muitos casos, desiguais e nos quais estamos inseridos. Porém, mesmo considerando lidar com tecnologias, que sabemos não serem neutras, e do ponto de vista das controvérsias — situações nas quais atores discordam, ou melhor, concordam sobre sua discordância — ficar de mãos atadas perante as associações prementes, que vão desde a circulação da agência (de modo geral imposta) e seus intermediários, até as caixas-pretas algorítmicas (estariam os algoritmos em correção contínua? Ou somente em erros crassos?), podemos reinicializar, partir para um processo de recuperação de informação ou lamentar com uma ponta de decepção que, aliás, seria detectada no sistema de reconhecimento emocional da IA, caso pudessem olhar para as nossas expressões faciais agora. Seria certeira mesmo?

Afinal, como dizia William Gibson: “O futuro já está aqui — apenas não está distribuído de maneira uniforme”.

________________
(As opiniões expressas nos artigos publicados no Jornal da USP são de inteira responsabilidade de seus autores e não refletem opiniões do veículo nem posições institucionais da Universidade de São Paulo. Acesse aqui nossos parâmetros editoriais para artigos de opinião.)