Home  >  Inovação

É possível eliminar vieses dos algoritmos? Pesquisadores da PUC-Rio apontam novos caminhos

Estudo busca ajudar no diagnóstico dos métodos existentes de aprendizado de máquina, entregando mais transparência e melhorando interpretabilidade

Carla Matsu

20/07/2020 às 10h09

Foto: Adobe Stock

A medida que algoritmos de aprendizado de máquina passam a ter cada vez mais atuação em processos e avaliações na nossa vida e sociedade, especialistas alertam para os possíveis efeitos colaterais nocivos à sua influência na tomada de decisão. Afinal, se treinados sobre bases de dados enviesadas, têm-se do outro lado, conclusões que podem reforçar esteriótipos e, até mesmo, cometer injustiças.

Pesquisadores, entretanto, têm buscado formas de mitigar erros no processo de decisão de algoritmos. O estudo Born-again Tree Ensembles, conduzido pelos pesquisadores Thibaut Vidal e Toni Pacheco, do Departamento de Informática do Centro Técnico Científico da PUC-Rio (CTC/Puc-Rio), em parceria com Maximilian Schiffer, da TUM School of Management, Technical University of Munich, na Alemanha, vai exatamente nesta direção ao oferecer um importante avanço na área de Machine Learning (ML).

Em entrevista à Computerworld Brasil, um dos autores, Thibaut Vidal, esclarece que o trabalho em questão busca ajudar no diagnóstico dos métodos existentes de aprendizado de máquina, para melhorar a sua interpretabilidade. O estudo traz avanços que permitem visualizar os processos de decisões dos algoritmos entregando, assim, mais transparência. O artigo foi apresentado na última semana em uma das mais conceituadas conferências sobre aprendizado de máquina e inteligência artificial do mundo, a International Conference on Machine Learning (ICML 2020).

Mostre o seu algoritmo, e eu te direi quem és

Para explicar o impacto que o estudo conduzido pelos pesquisadores pode trazer é preciso, antes, explicar alguns pontos importantes:

  • Como algoritmos são treinados;
  • Por que eles podem ser tendenciosos;
  • Como eles podem ser classificados

Máquinas recebem milhões de dados para processar, interpretar e aprender. E por mais que nós gostaríamos de confiar de olhos fechados na inteligência artificial para lidar com nossas frágeis limitações, os algoritmos ainda estão mal equipados para neutralizar conscientemente os vieses aprendidos com o pensamento humano. Isso porque a maioria das bases de dados e classificações usadas pelos sistemas de IA e ML vem de pessoas que criaram os algoritmos - o que até, muito recentemente, era feito por um grupo formado majoritamente por homens brancos e de classe média.

A falta de diversidade no grupo daqueles que escrevem os algoritmos também se reflitirá na forma como as máquinas “pensam”. Se seus criadores, portanto, reproduzirem valores preconceituosos (mesmo que de forma inconsciente), elas não terão outro destino senão fazer o mesmo. Entretanto, eliminar esse legado estrutural nos vícios dos algoritmos modificando sua interpretação não é tarefa fácil.

“Qualquer sistema de computador pode estar sujeito a erros ou vieses”, destaca o professor Thibaut Vidal. Segundo ele, por isso é extremamente importante aprimorar as técnicas de diagnóstico destes problemas. Técnicas modernas de classificação são complexas e treinadas a partir de conjuntos de dados muito grandes, dificultando a análise de seu comportamento inerente. "Com nosso trabalho, podemos simplificar um conjunto de árvores de decisões e ajudar o trabalho de análise”, explica Vidal.

Sistemas de recomendação, de análise de concessão de crédito, de justiça criminal, diagnóstico médico e visão computacional, entre outros, fazem uso de algoritmos de aprendizado de máquina para automatizar tarefas de previsão e classificação que seriam feitas por humanos. Um dos métodos mais clássicos de classificação dos algoritmos é representado por múltiplas árvores de decisão, o que formam uma floresta, conhecida como Random Forest. Representações deste tipo foram utilizadas com sucesso em vários domínios, mas o uso simultâneo de várias árvores aumenta a complexidade e limita a interpretabilidade dos algoritmos.

Embora sejam muito bons em termo de desempenho, classificadores do tipo Random Forest dificilmente são interpretáveis por seres humanos. Atualmente, é preciso escolher entre confiar em um Random Forest com bom desempenho ou confiar em uma única árvore de decisão explicável, mas com desempenho inferior. “Pesquisadores em aprendizado de máquina enfrentam esse problema há décadas e, até agora, a solução sempre foi aceitar alguma perda de um lado ou do outro. Especialmente em tarefas de decisões de alto risco (por exemplo, medicina, justiça ou finanças), queremos manter ambos os benefícios”, diz Vidal.

"Ao preservarmos a função de decisão e o desempenho do classificador original, obtemos o melhor dos dois mundos: uma árvore de decisão interpretável e de alto desempenho”, destaca. Resumindo, os pesquisadores conseguem reescrever o mecanismo de classificação de um jeito diferente. "Isso ajuda a detectar possíveis erros de classificação”, explica Vidal que reforça que o estudo não propõe um novo método de aprendizado de máquina, mas sim busca ajudar no diagnóstico dos métodos existentes.

Algoritmos mais justos dependem de diversidade

A forma como os algoritmos de ML tomarão suas decisões refletem a complexidade de nossos comportamentos e sociedade. A tarefa, então, de eliminar vieses entre os algoritmos só terá sucesso se for pensada de diferentes perspectivas. "Só poderemos ajudar a evitar vieses na tomada de decisão se a gente entender os próprios mecanismos que desenvolverem esses dados no passado para não reproduzir os mesmos no futuro", destaca o professor.

Para isso, Vidal, reforça que o trabalho deve envolver outros campos de estudos, além da Ciência da Computação. "É preciso reunir especialistas de diferentes áreas, como sociologia, antropologia, história, computação", diz. "Precisamos de uma colaboração científica de pessoas de várias áreas para fazer evoluir a sociedade e os algoritmos de aprendizado de máquina de forma que eles sejam mais igualitários para os indivíduos”.

Na prática, os pesquisadores agora trabalham para disponibilizar uma versão do código apresentado no estudo para uso de qualquer empresa ou outros pesquisadores interessados no uso da ferramenta.

Na literatura sobre aprendizado de máquina, explica Vidal, sempre houve uma crença que se você quiser obter um bom desempenho de classificação, você tem que buscar métodos complexos. "Mas essa hipótese vem sendo questionada ao longo do tempo", pontua. "Em muitos casos pode-se fazer ótimas classificações, mas que são simples de explicar para um humano. Eu espero que nosso estudo seja o primeiro passo, ou mais um passo, na direção de métodos de classificação que são mais interpretáveis e mais diagnosticáveis pelos humanos", conclui.